语音识别酝酿第二次浪潮
程序员文章站
2022-03-04 23:45:34
联想S9全国最低价
精彩瞬间 三星i7
索尼C21CH火爆热销
苹果沙佛2疯狂促销
得意音通是一家提供语音技...
联想S9全国最低价 精彩瞬间 三星i7
索尼C21CH火爆热销 苹果沙佛2疯狂促销
得意音通是一家提供语音技术的公司。打进该公司的电话总机,在通常的“请拨分机号”以及“人工服务拨0”的语音提示外,加上了一条“请说您找哪位”。其实,像这样的用户直接跟机器对话的系统在美国已非常普遍。在遍布美国大街小巷的公用电话亭里,只要有AT&T语音识别系统标识的,用户只需对着电话说“Connect Operator Please”,系统所具有的关键词检测技术就可以从句子中查找到Operator,直接把电话接通到接线员,系统的识别率超过99%。 相比用按键方式进入一级级菜单的传统的呼叫中心,这样的服务显然更方便。尤其是在不适用于键盘和鼠标输入的移动计算环境,语音输入具有更大的发展潜力。就算是在办公室,语音识别技术也可以帮助一部分不愿意或不能使用键盘、鼠标的用户减少大量的手腕和手指的重复劳动。然而,这样的技术对大部分人来说仍然很新鲜,想想有几个人使用了手机里内置多年的语音拨号功能? 技术的落差 语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。实验室语音识别研究的巨大突破产生于20世纪80年代末:一些小词汇量的识别系统具备了较高的识别率。同时,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中。语音识别技术获得突破的主要原因在于半导体技术、软件技术和存储技术突飞猛进的发展。 语音技术掀起的第一次浪潮始于20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。在1997年有人提出,“语音时代”已经来临,商家也都对此充满了信心:希望语音识别能力能跟人一样。语音识别技术变得如此受欢迎,让人不得不相信,语音技术将无处不在。 然而,事实并非如此。在实际应用中,在实验室中“成功”的语音识别系统在鲁棒性(Robustness)、灵活性和自适应能力上还远远不能满足实际的需要,技术上也显得力不从心。得意音通公司副总裁邓永强说:“过高的市场期望面对实际的技术水平和应用现状,难免产生泡沫。” 技术的不成熟,加之市场的接受情况,语音识别市场确实无法用上“火爆”这个形容词,甚至无法在市场上找到几个语音识别方面的成熟应用,因此,众人纷纷打起了“半成品技术”的主意,“以现有的技术水平来创造出应用”。以中国市场为例,厂商并没有去追求最完美的应用—“听写机”一类的非特定人、连续语音、大词汇量的语音识别,而是把当前已经成熟的那部分技术应用到实际的产品中。例如以中小词表为主的命令式语音识别,包括呼叫中心、语音拨号,移动设备中的嵌入式命令控制等,并且对于普通话能达到相当高的识别率。 语音识别的“新三难” 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求(分为孤立词语音识别和连续语音识别)和对说话人的依赖程度(分为特定人和非特定人语音识别系统)。语音识别技术的发展历史就是从简单到复杂,逐一攻克“老三样”指标的过程。 最简单的小词汇量、孤立词、特定人语音识别技术在20世纪70年代就已经非常成熟。尽管有一定的难度,目前在实验室环境下“老三难”均能达到最高标准,也就是听写机。微软称嵌入到Office软件中的听写系统能在标准北京口音输入的情况下,首次识别率达到93%,调试之后达到96%,并且新的技术正在使识别率不断上升。 技术的价值在于它服务于应用。虽然在实验室拥有如此高的识别率,在语音识别技术从各个不同的突破口进行应用和产业化的过程中,“新三难”凸现出来,成为研究重点。 首先,方言或口音会降低语音识别率,而对于拥有八大方言区的中文来说,应用的难度会更大。清华大学计算机系语音技术中心副教授,同时也是北京得意音通技术有限公司董事长兼总裁的郑方博士就正在跟踪解决这一问题。今年,在美国约翰霍普金斯大学召开的每年一度的语音技术研讨会上,郑方博士提了一个关于方言和口音问题的提案,题目定为“Dialectal Chinese(带方言的普通话)”。题目本身的重要性使它在全球十几家提案中胜出,并成为最终被选定的三四家之一。郑方博士说,“Mandarin Influenced by Native Dialect(受母语口音影响的普通话)”将有可能成为一个需要四五年时间完成的大项目。 “新三难”问题之二是背景噪音。人多的公共场所巨大的噪音对语音识别影响自不用说,就算在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应用中,噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来,这将会使识别系统具有很强的适应性。 第三个就是“口语”的问题。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。另外,当人们在口语交流时,即便是人的大脑分析认为是非常标准的发音,在语音识别的时候上却变到了声学的角度,随意发音带来的问题是很大的。 “新三难”是在语音识别技术的应用中对识别率影响最大的三个因素。除此以外,由于语音在识别前需要传输,识别系统还需要适应不同类型的传输信道。语音识别技术本身还有很大的发展空间。 第二次浪潮还有多远? 多年的研究使国内中文语音识别的核心技术与国际的差别不大,并且从去年开始,中文语音识别技术的应用开始大量涌现,产业化进程从此拉开序幕。邓永强把语音识别产业的现状比作1995年时期的互联网,“树在长大,有绿叶了,还在等开花结果”。他认为,中文语音识别产业经过了1998、1999年的转折点—从0变成了1,将会在明年出现新的转折点,形成新的发展高峰。那么,中文能否给语音识别带来第二次浪潮? 又一次浪潮的出现,必须建立在成型的市场之上。今年3月,HarrisInteractive公司受美国的专业语音技术公司Nuance委托对美国普通公民进行了语音技术满意度的调查。调查结果是:语音技术已被广泛的接受和使用;用户对他们曾经使用的语音技术有着高度评价;语音比起其它的交互方式有更多的优势。可见,语音技术在美国的普通公民中有着相当高的接受程度。在这样的基础之上,美国语音识别市场逐渐做大,已经形成了竞争的格局。 而国内在技术的应用上起步较晚,导致了现在国内用户感到新鲜的语音产品在国外已有了好几年的应用。早在1997年就进入中国语音识别市场的IBM,已经花费大量资金培育市场,让大家知道了什么是语音技术。或许正是因为如此,在市场推广方面较为薄弱的国内