语音识别“在路上”
“钢铁侠”Tony Stark有一位智能管家,人们看不见它,它却无所不知,是居家旅行、拯救世界的必备良物。
它满足了人类对于“语音识别”技术的终极幻想。你可以把这位智能管家想象成Siri的未来升级版,它不但能够完美执行指令,还能根据设备的工作情况甚至主人的心情提出建议。
下面回到现实。Siri眼下能做的最棒的事情,就是帮忙预订某个酒店房间—诸如此类。不过不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展计划。
2012年3月,一项能够即时语音翻译26种语言的技术被微软研究院推出。与其他语言翻译产品不同的是,这项技术除了翻译多种语言之外,输出的语音还可以模仿说话人的音色和音调,使它们听起来接近使用者的真实声音。当然了,现在它听上去还有些生硬,感情色彩还不够丰富。
这项技术的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域。微软用它来翻译,在将语音进行识别之后,变成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技术。使用者只需要预先录下几十分钟的母语作为训练语音。软件在进行识别、翻译之后,就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出来。
此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一。另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能。当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅。
人们对于语音识别的迷恋由来已久,甚至在计算机发明之前。早期的声码器,可以看作是语音识别技术的雏形。1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳。
作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程。你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一。
现在语音识别的主流技术,由数据统计模型和算法组成。如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配。算法包括了对数据存放位置的判断等行为规则。数据越多,模型也就越大。
再简单一点说,当你说了一句话之后,算法会从数据库中抓取可能最符合你意思的那句解释。因此模型中包含的数据越多,通常也就意味着识别能力越强。但问题来了。就像没有一个仓库可以存放世界上所有的货品一样,没有一个模型可以解释所有数据。人们可以说任何话,因此数据变化无穷。
所以你应该不难理解,以往一些初级的语音控制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别。在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责“搬运”。
包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单。
要实现这一点,仍然必须要有一个基础的数据库。在微软的TTS技术中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式。建立数据库的好处在于,“它不能够保证你肯定对,但它能够保证最可能对,或者说可能最好的答案。”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说。
当训练完成之后,语音识别就变成了一个排序过程。当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句。各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术。
一段话是谁说的并不重要,更重要的是它的文本识别率。按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受。
要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语音。
眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言。
在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法。但现实是,一般意义上的“噪音”太多。比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰。对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法。
早在1992年,一家名为Nuance的公司就看到了语音识别技术的商机。目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写。2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600万。
这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利。在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题。
将默默埋头赚钱的Nuance推向前台的正是苹果。由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的曝光。Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关。
曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之。苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命。
2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次。眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和*地区国语的识别。不过中文与英文的识别引擎完全不同,需要重新开发。
在中国,还没有形成大规模的语音识别应用市场。国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术。它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用。
微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大部分将通过语音完成。现在看来,他或许乐观了一些。即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展。
如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义。当机器听到一个名为“意大利菜”的关键词时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围。
语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样。
与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程。“这一类的技术基本上还是填空法。”宋謌平说。当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关键词,与人的语义理解还有很大区别。
不过在一些垂直领域,语义识别已经获得了一定程度的发展和应用。中华英才网的控股公司、美国最大的人力资源网站Monster,最近开始在中国市场推出一种名为6Sense的语义搜索专利技术。它能将求职者的工作经历、技能、教育背景和所在地区,与目标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率。在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字。如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多。
从长远来看,语义识别目前还有很多尚未突破的难点。最大的障碍事关情感,机器还没有办法理解人类的情感,它们只能通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关键词抽取也经常出现不准确的现象。
小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,形成工程化的产品,最后才能对知识进行筛选,甚至能够学习新的知识点。
看起来,“云”或许会是一个解决办法。因为云服务器可以容纳规模足够大的模型。如果能有一种算法,使这种模型具有学习能力,就可以将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传。
尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技术真正达到善解人意的程度,还需要很长一段时间。
还是先慢慢折腾Siri吧。
上一篇: 食人族笑话集锦
下一篇: [贺岁片]非诚勿扰搞笑台词