语音识别准确率达97% 我们离对话交互还有多远?
上周,科大讯飞、搜狗、百度先后召开发布会,对外公布语音识别准确率均达到「97%」。
而一如阑夕所言「一旦语音识别的准确率达到99%,那将直接进入产业爆发的黎明」,在从97%迈进到99%的路程中,各大巨头和资本早已开始造势布局。
97%的准确率意味着优秀产品落地?
97%这一数字,看似散发着胜利的曙光,却仅仅是语音识别准确率而已。
大众预期的产品里面,智能语音作为人机交互层,需要达到完全理解的程度。这不仅需要高准确度的语音识别,更需要复杂动态的语义理解,机器才能准确理解用户意图。但这是两种不同的技术:语音识别仅仅将用户的语音指令与嘈杂背景音剥离开来,保证原始命令无误;而语义理解更为复杂,也是提升用户体验的关键步骤要支持在不同用户场景下,理解用户的指令,理解真正用户需求,进行上下文管理,并有效完成一次对话。
拿简单的点外卖做个比方。智能手机上点外卖方式,无非是打开app,用户自主选择、点触。而以语音交互为入口,用户会向智能终端说道:「饿了,有什么好吃的?」
「您想吃点什么?」
而用户会继续语音发布指令:「我想吃火锅,超级辣的那种。」
哪怕siri级别的助理,也足以搜索出足够多的推荐,并且语音回复:「附近的火锅有xxx,xxx」
「恩,但好像一人份的海底捞好像太多了,还是换冒菜吧。」
对话如此循环往复,机器接受语音命令,替用户筛选出有效信息,降低了用户交互成本。而现有的智能助理到这里往往会犯懵,在用户切换话题的时候回答不知所云。而这也是智能助理广为诟病的主要缺陷,即缺乏对话管理能力,导致用户体验不佳。而这一部分的提升主要依靠自然语言理解和深度学习技术的进步。
而获取不同用户场景下的海量数据进行训练,才能让机器满足复杂的场景需求。而这也是开发布会的三大团队步调一致的方向。根据科大讯飞发布会来看,业务从To B转向To C,智能硬件将是下一个突破点,产品包括智能电视、音箱等。而这些产品的背后都是同一个技术平台AIUI作为核心技术平台驱动。如果说智能硬件是科大在C端尝试开辟的入口,搜狗和百度依然是从输入法中获取用户数据。搜狗自有搜索引擎作为数据来源,而百度还有百度地图等其他产品辅助。
但是在对话交互时代,智能语音市场占据用户入口的真的会是这三家之一吗?
如果不是讯飞,下一个巨头会是谁?
一直以来大幅占据媒体版面的都是科大讯飞、搜狗、百度,而人们习惯性地忽略了安静的一方微信。而在这段跑道上最有优势的是,微信是最靠近C端的App,活跃用户惊人并天然积累了海量的语料库。
微信已具备语音识别、语义理解研发能力,并且占据了IM入口。早在2012年腾讯就建立了模式识别团队,后并入微信,逐步加入了语音识别功能。而在微信智能开放平台的语音识别和语义理解开放接口中,可以窥见微信的技术能力和产品野心。 而且讲真,微信的语音识别体验并不落后于其他团队,所谓1%或是2%的差距都是在满足小概率的场景。
当然,微信有其先发优势,但并不意味着不会有后来居上者。在交互方式迭代转变的过程中,常见多种新旧并存的情况。在开辟蓝海的混乱中,似乎看清历史循环,更有可能布局成功。
公认的上一个科技风口,是由智能手机开启的移动互联网热潮。在移动互联时代,人机交互方式的物理介质是触屏,多由用户主动发起。慢慢的,App开始主动向用户push消息,试图唤醒用户,争夺用户有限的注意力。
同理,在向新型人机交互方式转变的过程中,要成为下一个科技巨头,不是稳坐后端(类似SaaS服务)就是占据前端,把握用户注意力的入口。那在语音技术和人工智能成熟后,机器会以何种形态陪伴用户,交互会演化到怎样的地步呢?
如同许多科幻电影着重刻画的那样,智能终端的形态非常多样。从已问世的Google Home和 亚马逊Alexa到国内的Rokid,科大讯飞以及小米都在推的智能音箱, 都是交互形式进化的智能硬件产物。小到个人可穿戴设备如蓝牙耳机、手表,大到智能家居全部24小时待命,随时接受用户语音指令。
但现阶段,仅仅以语音为支撑是不够的。这些24小时随时待命的智能终端,真的是随着用户语音唤起才进入工作模式吗?如果不是,那么用户在可录音范围内的活动,都会被智能硬件记录下来,那么隐私数据将会掌握在谁的手里?再设想一个极端的用户场景:戴着智能手表的用户,挤上地铁,却只能用语音对智能助手说:「嘿宝贝儿帮我订个饭,叫到公司。」万一环境嘈杂,助手宝贝儿听不懂指令,只能反复,十足滑稽。这自然不如打字与智能助手聊天来的得体。
人类总是渴望全面智能,同时也在某些方面极力对抗科技,维护个人隐私的体面。
对话式交互将走向何处?
从Chirs Messina提出「Conversational Commerce」这一概念以来,不论媒体与资本如何夸大造势。但不可否认,对话交互确实是大势所趋。与此同时,智能语音不足以全面满足用户根本需求。随着自然语言处理和人工智能的成熟,多样化的智能终端将会支撑文本和语音交互相辅相成的局面。
就比如最近大热的微信小程序,支持了websocket协议。这意味着长连接的用户场景,例如对话式交互,开发成本也会降低。届时,预计会有一大波借对话式交互为载体的场景式服务将借微信平台快速崛起,许许多多个如同「助里来也」的服务将会向你招手。
无论成熟与否,这都是对话式交互成长的必经之路。
下一篇: IBM宣布语音识别错误率接近人类水平