欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

苹果Siri善解人意 语音应用引爆在即

程序员文章站 2022-07-08 13:36:38
  多年来,语音识别技术始终磕磕巴巴、欲语还休。现在,Siri横空出世,将这项技术推向了主流,同时还带来了非常广泛的应用前景。   语音识别并不是什么新鲜事物。多年来,消费电子...

  多年来,语音识别技术始终磕磕巴巴、欲语还休。现在,Siri横空出世,将这项技术推向了主流,同时还带来了非常广泛的应用前景

  语音识别并不是什么新鲜事物。多年来,消费电子产品、汽车和自动呼叫中心一直就在“倾听”使用者的指令。从2009年开始,谷歌公司(Google)就一直在采录语音信箱的信息。而在此之前三年,微软公司(Microsoft)也将类似的技术置入了Windows Vista。那么,苹果这个名为Siri的全新虚拟个人助理到底有什么神奇之处呢?
 

苹果Siri善解人意 语音应用引爆在即

  它能读懂你的心。

  换句话说,Siri不仅仅是语音识别技术,它还能理解语言——正是这一点开始改变用户与手机的互动方式。现在,很多人预测,Siri将对这项长期以来呼之欲出的技术起到重大推动作用,正如苹果iPhone的触控系统让触控技术跻身主流一样。这项技术将扫清众多创新应用发展道路上的障碍。市场调研公司Opus Research称,今年语音识别行业的产值将达到约27亿美元。该公司还预计,2012年,市场将掀起后Siri语音应用热潮。

  是什么让Siri如此与众不同呢?战略咨询公司Creative Strategies总裁提姆•巴佳瑞称,答案在于精确性。他说:“Siri推出的是真正的新一代人机界面,它对语音理解及精确把握语音的市场产生了重大影响。”

  Siri当然谈不上完美无缺。这项技术在理解某些口音上还颇为困难,不过苹果已经在努力解决这些小问题了。但对一款软件来说,Siri的表现可圈可点。Siri的始创者是位于加州的门罗帕克市的研究实验室SRI International,据它称,Siri的关键在于自然语言处理技术。Siri的工作原理是:捕捉语音信号,直接将其转换为文本,它们与用户在手机屏幕上看到的文本并无二致。Siri然后将这些语句与某些预先编制好的指令配比,比如“拨打电话”,或“编辑短信”。

  这一技术潜力巨大,绝不是只适用于平板电脑和智能手机。语音识别系统Nuance公司是语音识别软件Dragon的开发者,这款软件在医疗保健行业的应用已经长达十年之久。内科医生的桌面上正运行着Nuance的最新软件,它利用一个夹式微型话筒来录音。随着问诊的推进,这款软件会及时更新病人的电子健康记录。Nuance公司医疗保健部门的资深研发副总裁乔•佩特罗称:“病人可能在这一秒说的是母亲的病史,下一秒又提起父亲的病历。而这些情况这款软件都能理解。”

  它是如何做到的呢?它的工作原理和Siri非常相似:通过从它所识别的语汇中获取意义,然后参照一个医疗信息数据库,将其与病人的病史做比对。随后,它会运用统计推断的方法,在其所发现的信息片段之间建立联系,甚至为对症治疗给出建议。全美大约有45万名内科医生正在使用Nuance公司的软件。佩特罗称,这一技术的准确率超过90%,而且还会随着时间推移而不断提高。显然,这款软件盈利前景良好,因此Nuance公司决定,将其第四财季的收入预期调高约1,000万美元。

  然而,研究人员对这一技术的未来抱有更大的希望。思凯普•里佐是南加州大学创新技术学院(the University of Southern California's Institute for Creative Technologies)的助理总监。他正在开发一种互动仿真技术,用以帮助退伍军人针对创伤后紧张症(post-traumatic stress disorder)寻求医疗咨询服务。这款软件名为SimCoach,它的最终目的是要设法理解人们口语背后的情绪状态。里佐称:“这是个十分巨大的挑战。因为必须采集语音模式,然后得像人类的大脑那样对它们进行分析。”里佐称,人类或许能察觉自己的好友或家人情绪异常,因为这时人们的语速往往会变慢,重音也更少,但电脑要捕捉这些信号可就相当困难了。

  不过这个领域的有些研究却能更快获得成果,而不用再苦苦等待。去年春天,里佐的研究伙伴——麻省理工学院(MIT)教授阿历克斯•彭特兰在美国银行(Bank of America)的呼叫中心开展了一项类似的语音推断技术试验,旨在分析员工的沟通对业务成功的影响。彭特兰让员工连续六周在脖子上戴着小型电子设备,它们能记录员工的实际位置以及身体语言和声音。所记录的数据能显示这些员工是在和谁沟通,他们站着时与沟通对象距离有多远,谈话的语调如何。彭特兰称:“我们发现,效率最高的员工不光与大量对象交谈,他们还与同样表现出这种特点的同事交谈。”结果,他说,只需要调整一下员工的茶歇时间,使这类员工之间的步调更为同步,这个呼叫中心每年就能节省1,500万美元。

  用户现在对Siri的广泛关注很可能将大大促进这类研究,并进一步推进其应用。里佐说:“语音识别技术确实是技术领域至高无上的圣杯(holy grail)。我们已经掌握了这项技术的90%,但剩下的10%要求攻克更多难关。一旦到了引爆点,我们将迎来一片十分广阔的市场。”看起来,这个引爆点很可能非Siri莫属。