欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

语音助手不灵 “对话交互”才是未来?

程序员文章站 2022-09-17 16:41:24
过去一年,从谷歌眼镜开始,穿戴式设备、智能家居和车载设备的兴起,将语音识别技术推到应用的前台。对整个语音识别行业而言,过去一年也经历了前所未有的繁荣,语音识别技术也有大幅度提高,特别是对新兴创业公司而...

过去一年,从谷歌眼镜开始,穿戴式设备、智能家居和车载设备的兴起,将语音识别技术推到应用的前台。

对整个语音识别行业而言,过去一年也经历了前所未有的繁荣,语音识别技术也有大幅度提高,特别是对新兴创业公司而言,语音识别技术不再如过去那样封闭,而是逐步开放和开源,语音技术门槛逐渐降低。“专业公司的语音识别可以做到90%,小厂商可以利用开源技术至少可以做到70%左右的识别率。”语音识别的业内人士这样判断。

实际上,即使如专业语音识别厂商科大讯飞、云知声、思必驰等都可以做到90%以上的语音识别正确率,单独的语音识别在可穿戴设备中的应用依然不够“听话”。这甚至成为整体语音技术应用的一个最大痛点。

“语音识别的遗憾是再努力做也做不到百分之百”。智能语音技术创业公司思必驰首席科学家俞凯这样判断。

剑桥大学皇家工程院院士史蒂夫.杨(Steve Young)教授是语音识别界的权威人物,多年前开始思考另一个方向:“在识别有错误,或者在理解有歧义的情况下,人和人之间可以继续对话沟通达成目标,机器也应可以做到。”

沿着在英国奠定的“对话”技术路径,作为史蒂夫.杨的对话系统研究团队早期核心成员,剑桥大学语音识别博士俞凯,和另一位同在剑桥大学毕业的高始兴回国创业,创立了思必驰。从思必驰的进展来看,不纠结于语音识别的识别率的完美主义,而死磕人机交互的“对话”系统似乎可成为如何让可穿戴设备真正能用上语音技术的“捷径”之一。

语音助手不灵 “对话交互”才是未来?

语音助手的尴尬

自苹果iPhone 4S内置Siri以来,几乎所有的手机都开始内置语音助手类的应用。除了谷歌Now、苹果Siri,国内如百度、搜狐等公司都推出了语音助手类应用。

一年后,助手类应用几乎都面临着功能的同质化、用户体验不足、语音识别准确率在复杂条件下距离实用化尚有距离的问题。

Siri的迭代可以解释助手的尴尬。在苹果发布iPhone 一代和二代时并没有没有语音驱动。在当时,苹果的一个调研显示,75%的用户希望在手机中内置语音应用。随后,苹果在iPhone3GS中加入了语音控制的功能。实际应用中,不到5%的人会使用语音控制。苹果内部的总结发现,用户不使用语音控制不是不喜欢语音应用,而是由于语音控制不是用户的自然交互。

“有87%的用户每月至少使用一次Siri,但大多数用户都是和Siri聊天。而不是通过Siri完成任务。”Siri的一位负责人发布了这样的数据。

“Siri给我们的启示是,未来智能语音技术的发展,必须同时解决自然语言交互和完成有用任务的问题,而且限制越少越好,缺了哪个都不行。”俞凯说。

去年,Siri被重新整合到苹果的内容和服务部门,且设立的四个研发组中一个与语音识别相关,三个全都是与对话系统相关。另一家巨头谷歌于去年9月对外公布新算法“Hummingbird(蜂鸟)”目的是发展语义搜索;12月在巴黎举行的LeWeb上透露将采用反复对话的形式进行搜索。

俞凯认为,这个举动暗示巨头的战略在从语音识别向对话交互的方向迈进。

用对话交互解决痛点

对于那些不方便使用键盘和鼠标输入的设备而言,语音识别技术成为更有效的输入手段,帮助用户解决了输入的困难。

“有了语音识别,将语音转换成文本,再将文本用自然语言处理转换成语义就完成任务了么?”俞凯认为,这些还不够。“语音技术的本意是帮助用户最快地完成任务,但语音识别+自然语言处理不能彻底解决这个问题。”

单纯的语音识别的另一个局限是,识别+自然语言处理本质上是根据文本理解,语音先转换成文本,自然语言理解仅仅针对文本进行,这种模式很难应对语音识别的错误,也无法理解用户意图的模糊性。

这是由于,人天生的倾向于用非精确的信息来交互,因为非精确的信息传输量更大,更方便。机器却是需要有精确信息来处理才能让识别和自然语言处理更准确。这是一对天然的矛盾。

例如说“去九寨沟吃饭”,到底是去风景区,还是去一个叫九寨沟的餐馆是不清楚的。因为在识别过程中没有针对交互过程中的上下文建立对话模型和联系历史信息,这类用户意图的模糊是无法由自然语言处理完成的。

“我们把识别、理解、决策、合成等对话系统的各个模块进行联合优化,在每个模块出现处理上的偏差的时候,基于全系统丰富的非精确信息进行计算,更新交互,实现顺畅对话。在自然语言理解的基础上,又允许有不确定性的信息,综合去做理解和交互决策。”俞凯说。

剑桥语音技术血统的创业

科大讯飞的创始团队来自于中国科技大学,云知声的团队来自于中科院自动化所和盛大创新院。

在科大讯飞开始做语音识别技术之前,90年代初期,剑桥大学开发的HTK语音识别工具已经将实验室研究的语音识别技术的代码标准化,并免费提供给开发者,普及了语音识别技术的开发,至今也是全世界使用最为广泛的开源软件之一。

思必驰的创业血统来自于剑桥大学。俞凯和思必驰CEO高始兴是在剑桥的师兄弟。俞凯曾和对话领域的奠基人史蒂夫.杨搭档开展语音对话交互的研究和产业化工作。

2011年,高始兴看到中国市场上智能设备上有爆发之势,请俞凯回国,并从汉语和英语口语评测的方向转型,在完成高精度的云端语音识别之后,重点实现对话系统技术。

“2011年,我们的首轮融资来自联想之星。之所以在众多投资者中选择联想,是联想之前投资了科大讯飞有关。联想是唯一一家投过语音识别企业的。”高始兴说。

去年9月,思必驰发布了国内第一个对话平台——对话工场,以对话为核心的智能语音交互技术开放平台,核心是不仅让机器听清人话,还能听懂,并完成任务。

截止到目前,联想、苏州电信、同程网、土曼智能手表、幻腾智能灯、智能家居Broadlink、驴妈妈等都采用了思必驰的语音技术解决方案。“互联网的合作伙伴有20家,手机等智能设备的合作伙伴也有20家。还有一些智能客服的合作伙伴。”高始兴透露。

不过他认为,和厂商的合作并非接入语音识别的技术方案那样简单,更重要的是与业务的耦合。

语音助手类的应用的尴尬在于只是识别引擎,效果不好很容易被其他助手替换。如果能与合作伙伴的业务能深度耦合,“一方面给合作伙伴的业务带来用户粘性,同时还可以通过该业务用户的语音语料做自身技术方案的优化,同时还能提升用户体验,多方共赢。”高始兴说。