四大技术难点阻碍语音识别技术平民化

程序员文章站 2022-09-18 18:22:28

标准输入的难题　　不要小看鼠标和键盘，虽貌似技术含量低，但它所具备的统一的输入标准和精准的视觉反馈这两点，正是语音识别技术目前的短板。 ...

标准输入的难题

　　不要小看鼠标和键盘，虽貌似技术含量低，但它所具备的统一的输入标准和精准的视觉反馈这两点，正是语音识别技术目前的短板。

　　当南方人把“牛奶”念成“留来”的时候，究竟是机器识别错了，还是人错了？微软中国研发集团下属微软亚洲研究院语音识别组组长宋言哥平提出这样一个问题。不要小看这个问题，语言输入不标准从而导致识别错误率高过键盘，是语音识别无法取代鼠标键盘的首要原因。

　　事实上，不仅是南北口音差异，每个人都有独有的发音习惯。因此在Vista中，每个用户在用语音控制电脑前，都需要以自己的语音，对电脑进行适应训练，使其习惯自己的发音，识别出正确的指令。在2006年的一次公开示范中，Vista语音识别系统认“Mom”为“Aunt”，并100%误读了演示员工的意思，使业界哗然。对这个“认母为姨”的错误，宋言哥平做出这样的解释：“演示组里每个员工都有自己的适应模型，正是演示人员张三慌忙中误使用了李四的身份和模型，才导致了这样的错误。”这从一个侧面也可以反映出语音输入不易规范的弊病。

　　除去口音参差不齐，安徽科大讯飞研究院副院长胡郁认为，输入设备没有统一标准也导致了语音输入的不标准：“在语音识别状态下，麦克风录音不是给人听，而是给机器听。而现在很多嵌入式设备上的麦克风的录音质量是以人可以听懂为依据的。但在什么标准范围内，机器才能听清听懂，目前还没有统一标准。”此外，面对“取C盘的某个文件”这样一个指令，鼠标需要层层点击，但语音识别只需要一句话，当然方便。但当遇到“点击这张图片上的某一点”这样的命令时呢？电脑将很难听懂和判断这句话的精准目的，而鼠标却可轻易办到。

噪声的困扰

　　语音输入很难规范，从某种程度上说是人为因素造成的，但噪声却是一种不可抗力。宋言哥平与胡郁均表示，噪声环境的处理是目前语音识别领域公认的技术难题。“这很好理解，机器无法像人那样分辨出人声和噪声。”宋言哥平解释道，“同时，不同场景有不同噪声，训练的情况也不能匹配真实环境，这使语音识别在噪声中比在安静的环境下难得多。”

　　目前，主流的技术思考方向是，研究出尽可能好的算法，使误差降到最低：在前端，在已混入噪声的语音中，提取一个抗噪性高的语音特征；在语音训练的时候，利用“最小识别错误训练方法”，结合噪声处理算法训练出一个语音模型，使识别系统在噪声环境里的鲁棒性比较高；在语音解码的过程中进行多重选择，凭借放入解码机制的信息，判断第一顺位的答案是否正确，如不正确可以看看第二、三顺位的方法。这些方法都可为提高语音识别在噪声环境中使用的精准性而服务。

完全消除噪声的干扰从理论上说是可能的——只要算法足够复杂和庞大。但是运算量的庞大势必造成两个问题：芯片存储量有限和“万灵模板”问题。

要不要等待芯片

　　之前，有科学家提出“2010年将是语音识别市场爆发之年”。其实，这是建立在算法成熟的基础上来预测的。北京拓源信息咨询有限公司的总经理郑院生一直关注语音识别以及其他人工智能技术的应用问题，他认为：“从算法和计算过程的角度看，语音识别其实是一个人工智能的问题，如果芯片的运算速度足够快，很多语音识别的技术难题就可以迎刃而解。”

　　但在现实中，语音识别在产品转换中遇到了问题，大多运用语音识别技术的设备都是嵌入式设备，比如手机、导航仪、学习机等。“芯片运算量、存储量和消费比的问题没有得到解决。假使嵌入式芯片能像台式机的芯片一样厉害（目前只和1997年的台式机一样），那就解决大问题了。”胡郁告诉记者，“手机用户目前只能语音查号码，这是因为手机芯片不够强大。汽车电脑也达不到台式机的水平。”

　　“摩尔定律仍旧有效，芯片基础架构和运算能力的代际演进，将为语音识别技术的不断成熟提供越来越可靠的物理平台。”郑院生对语音识别的未来保持很大的乐观。“作为技术研究者，我们要么就是提前研究，要么就是坐等芯片运算量上来了再研究。”宋言哥平认为，技术一定是跑在市场前头的。

“松紧带”怪圈

　　科学家大多是完美主义者，都想设计一个像松紧带一样的万灵模板的通用产品，粗腰细腰都能穿。“但事实上，按照说话人量身打造的东西才是最好的，可这样做工本又太高了。”宋言哥平认为，做好语音识别通用产品，针对不同场景做细微调整之间的权衡很重要。

　　此前IBM推出的Via Voice凭借当时堪称完美的技术轰动一时，但用户却并不买账，很多软件被束之高阁。“我认为包括Vista在内的语音识别产品，在人机界面的人性化设计上仍不够完美自然，这大大降低了用户的接受度。”宋言哥平表示。好的人机界面可在用户说错而浑然不知时，使计算机不被干扰，识别如常。

　　胡郁则认为，目标定位不正确（直接采用口述的方式输入需要不断思考文本内容）是Via voice叫好不叫座的主要原因。而从国内外成功的语音识别产品来看，符合用户需求确实非常重要。在国内，语音点歌（有些运营商称之为声动炫铃）十分受欢迎，其实就是孤立词搜索的一种应用。微软去年年初的时候，用8亿美元收购了一家做电话语音寻址的公司TellMe，从一定程度上说明微软认为语音识别技术在PC操作之外更有发展前景，比如在手机、client-server 的呼叫中心、电话、汽车、智能家电上。

　　此外，人机交互界面只是语音识别的一个用途，另一个用途则是多媒体的业务管理。比如blinkx网站，它把每段视频中对应的语音部分都靠语音识别技术转换成文字（虽然不一定完全正确），这样就可以通过输入文字来协助搜索视频内容。美国最大的语音技术提供厂商Nuance就拥有一个赚钱的成功业务——帮助美国医生写医嘱。这完全依靠大词汇量连续语音识别技术（LVCSR）来识别医生的口头医嘱。

　　如此看来，只要找到一个好的切入点，国内企业也可以做得很好。胡郁甚至随即开始构想如何为记者圈服务了：采访累计下来的历史录音，可以借鉴前面Nuance公司的想法转写出来，从而帮助记者更有效地整理和利用录音数据，而这只需要很少的费用。

我想，当很多人愿意为此掏腰包时，语音识别离平民的世界也将不再遥远。

上一篇：心情不佳?二货的囧事能让你笑爆嗒

下一篇：爆囧逗B,让节操成为传说