谷歌亚马逊的人工智能都存在的漏洞

《快公司》
2017-04-11 17:05

Amazon Echo和Google Home是什么?它们,都是家庭智能音箱。所有的工作都能通过语音交互完成,可以连接智能家居,支持语音命令。躺在床上,飙几句英语,订外卖、叫Uber、玩游戏……

微信图片_20170411174757.jpg

它们分别是亚马逊和谷歌在2014年、2016年发布的产品,都说自己的语音识别能力爆表。

Echo和Home,对人机对话的最初设定,都强调“个性化”。举个例子,Google Home的宣传视频中,丈夫和妻子分别向神一样的AI(人工智能)询问各自的日程安排,最后都得到了个性化的答复。看清楚,这是宣传。实际上呢,到今天为止,Echo和Home音箱的表现一点都不智能。当有人开口说话时,这俩都没法识别,到底说话的是谁。

不久前,《时代周刊》刊出一份报告,说亚马逊正在为Alexa(Echo后改名Alexa)开发声音识别技术。不过,这篇文章没有提到这个开发具体的时间表,也未断言此功能真的会面世。

看来,要让智能音箱辨认发指令的人是谁,要比想象中难许多。问题来了,Alexa和Home真的能进化成功吗?还是会被新的智能音箱赶超?或者中国人先研发成功?这些都是未知数。面对如此艰巨的难题,那些志在必得的研发团队又是怎么看?

timg (1).jpg

你和Amazon Echo交谈,它不会把听到的一切,直接上传至云端。而是运用本地处理功能,先辨别出“Alexa”唤醒用语及任何后续命令,再把它们送往亚马逊服务器进行解读。

本地处理能执行清除任务,利用算法减少背景噪音、回音和混响,突出说话人的声音。这样,Amazon就能更好地理解唤醒词和其他任何指令。但是,减噪混响的过程会扭曲设备试图辨别的声音,增加辨认说话者身份的难度。

微信图片_20170411174805.jpg

科胜讯公司(Conexant)副总裁维尼特·甘朱说,“一方面,你拥有了在嘈杂环境中识别声音的优势。但另一方面,却丢失了声音信号本身的部分特点,后续处理就更有挑战性。”

Sensory公司CEO托德·莫泽尔说,“对Echo等远场设备而言,它们的性能表现会随着信噪比上升而减弱。”虽然很难,但亚马逊和谷歌依旧看好这个新市场,志在必得,两边的研发团队都在绞尽脑汁修补这个bug。

识别声音的难题,并非无法解决,但说到具体的解决方案,存在不同的主张流派,也伴随着各种各样的挑战。

微信图片_20170411174808.jpg

恩智浦半导体公司(NXP)总监莱昂纳多·阿泽维多认为,设备厂商可独立分析原始音频和处理后的版本。在算法中添加能够识别说话者的元素,原始音频可用于识别说话人,并将此信息连同处理音频发送至云端。

但这个解决方案并不简单。运行识别说话者的独立算法有可能反应速度过慢。为此,恩智浦选择与亚马逊和谷歌合作,努力提高本地计算的速度,去实现独立的,不同属性多次传递。在云端分析原始音频也是一个选择,但也会拖慢反应速度。

微信图片_20170411174810.jpg

科胜讯公司更倾向于优化本地处理算法,并与Sensory等公司合作,在那些针对说话者的识别解决方案中进行预处理。通过反复实验,逐渐摸索出保留说话人特质的不降噪模式。

现在看,谷歌和亚马逊要研究出“辨音识人”的方法,似乎只是个时间问题,但它们还面临更重要的任务。比如语言支持。目前,Google Home只支持美式英语,Alexa只支持美式英语、英式英语和德语(小编谨代表中文说得贼溜的一大拨吃瓜群众们举爪表示支持中文版本的普及)。

所以,就算解决了基本的识别难题,亚马逊和谷歌离成功还要很多路要走。

来源:《快公司》