Siri开发商普通话应用:声调成识别障碍
程序员文章站
2022-04-01 22:33:24
导语:国外媒体周三发表分析文章称,除了开发苹果语音助手Siri外,语音识别软件开发商Nuance Communications还推出了智能机语音应用Dragon,支...
导语:国外媒体周三发表分析文章称,除了开发苹果语音助手Siri外,语音识别软件开发商Nuance Communications还推出了智能机语音应用Dragon,支持多种语言。由于中国的普通话使用声调区分发音,这为Dragon的语音识别带来了难度,虽然不能达到完全准确,但基本上还算不错。
以下是文章全文:
在期待苹果今年推出中文版Siri的同时,我决定尝试一下Nuance的另一款智能机应用Dragon,它支持多种语言,其中就包括中国普通话。虽然中文版Dragon和其它多数语音识别软件一样不能达到百分之百准确,但从基本层面来说,还是非常不错的。首先,对于语音识别来说,中文极具挑战性,因为普通话只有400个单音节声音,根据声调予以区别。
比如,妈妈的“妈”这个字读一声“mā”,读四声就成了“骂”(mà),三声在就成了“马”(mǎ),所有这些字读起来都像“ma”,但是声调不同开发一款能够识别“妈妈骂马”(māmā mà mǎ)句子的软件实在不是一件容易事。尽管普通话是中国的国语,但是中国还拥有很多种方言和数不尽的地方口音。Nuance下属Dragon研发副总裁吉姆·吴(Jim Wu)表示:“在*,每个人都有不同的口音,其中的一项挑战就是确保系统能够用于口音较轻的普通话用户。”
Nuance总部位于美国马萨诸塞州伯灵顿市,2011财年的营收为14亿美元,他们在2011年3月推出了两款免费中国普通话版Dragon应用,稍晚于Dragon英文版应用。Nuance还在2011年6月推出了广东话和*话版Dragon应用。 Dragon口述(Dragon Dictation)应用可以转录文本、电邮、Facebook或Twitter信息。Dragon搜索(Dragon Search)则用于互联网搜索,但不像Siri一样,Dragon无法向用户进行反馈。要想使用Dragon,用户需要点击“虚拟按钮”来开始和停止录音。所有过程都在服务器端处理。Nuance首席营销官皮特·马宏(Peter Mahoney)称,Dragon口述过程将上传至服务器中,由后者进行倾听、录制,然后将文本发回至设备上。
我口述了一些基本语句,比如“最近的星巴克(微博)店在哪里”,“我要去市场”等,这些对于Dragon应用来说都没问题。但是对于大部分用户来说,真正的乐趣在于测试设备的认知限制,看看它究竟能够多少匹配人类的语言和想法。所以我用中国式绕口令来挑战Dragon的极限,“妈妈骑马,马慢,妈妈骂马”,该句的发音就是“Māmā qí mǎ, mǎ màn, māmā mà mǎ”。Dragon能够捕捉大部分语音,但并不总是准确。Dragon显示的结果是“妈妈起码,妈妈,妈妈吗吗”,这里存在的一个基本问题就是无法准确识别“ma”。
尽管还不是完全准确,但马宏表示,Dragon应用还可以自主学习并提高。由于所有语音处理发生在服务器端,所以Dragon收集用户语音数据来学习语言,找到合适的组合词汇。Dragon还可以适应每一位用户的地方口音,适应的越好,语音识别就越准确。马宏还表示:“这些录音将保存下来,这样我们就可以使用自动化工具来分析结果。有时,你需要让人使用录音来看看他们怎样才能做的更好。