快评:子弹短信热背后是语音识别技术成熟

21世纪经济报道 21财经APP 周煊
2018-08-30 16:40

今天子弹短信的下载量突破四百万,再次掀起热潮。自锤子科技推出以来,短期内已经获得各大机构融资1.5亿,可谓是创投的冬天的一股暖流。就技术而言,子弹短信是语音识别技术的一次很有意义的尝试。通过这款APP,我们可以清晰看到语音识别是如何提高通信效率的,也能看到语音识别技术的最新应用。语音识别是一项技术,目的是将人的语音对话转化为文字。这项技术有很多应用,特别是人机对话领域。实际上,即便在人与人的通信中,语音识别也可以扮演重要角色。我们知道,语音播放是线性的,必须将它逐字放完,听者才能掌握它的完整信息。因此,作为信息摄入方式,收听语音的效率很低,远不及阅读。阅读即使做不到一目十行,也可以一目数行,其速度数倍于收听语音。在即时通信的场景下,为了效率,人倾向于选择阅读。然而,文字的键入是费时费力的,其效率又远低于语音输入。有了语音识别技术,我们可以将语音输入和文字阅读结合起来,用语音发信息,用阅读浏览信息,让通信更加便利。

那么,即时通信对语音识别技术有什么要求?最重要的当然是准确率。现代语音识别技术在标准测试环境下准确率可以达到95%以上,似乎说明该项技术具备了相当的实用性。即便错误偶尔发生,通话者也可以在文字上做简单修改,并不太影响输入效率。然而,95%的准确率是在标准测试环境下得出的。别忘了,很多人说话有严重口音,而且中国方言众多。在严重口音、小众方言、背景噪音的环境下,目前的语音识别技术还远达不到人的期望,这一点严重限制了语音识别在即时通信中的使用。除准确率之外的另一项指标是速度:通话者希望在话说完之后瞬间完成文字转化。在现代硬件的支撑下,这一点是比较容易做到的。部分手机上已经部署了最新的人工智能芯片,即便使用复杂的语音识别模型,也可以以亚秒速度完成文字转化。因此,速度不再是问题。

其实,大部分即时通信软件都提供语音识别功能,并在上面挖空了心思,比如微信。但由于准确度的限制,用户体验难以达到完美,大部分厂商对语音识别功能的推广还显得比较保守。总之,即时通讯的语音识别已经适用于很多场景,但并非所有人和所有场景。要解决口音、方言、噪音等问题,还需继续等待技术的日臻完善。

(作者供职于华东师范大学数据学院)

(编辑:李靖云)

分享成功