语音识别技术的发展趋势

程序员文章站 2022-04-01 22:33:18

语音识别技术经过全球半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到...

语音识别技术经过全球半个多世纪的研究，目前已经发展到了接近实用的阶段。在实验室环境下，大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。在这样的水平基础上，语音识别技术开始尝试从实验室演示系统走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的几个听写机系统的出现使“语音识别”一时声名远扬，引起了社会的广泛关注。一些人认为这些系统基本可以使用，但由于校对和更正识别的错误还很麻烦和浪费时间，降低了语音识别的便捷优势。也有人因为听写的正确识别率受到识别的内容，使用的环境或讲话习惯口音等因素的影响大大降低，认为目前的语音识别系统还无法满足实用要求。AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上，如电话自动转接、电话查询、数字串识别。在这些识别任务中，当讲话的内容是系统所期待的，使用环境的声学特性与训练数据的声学特性相差不太大时，语音识别的正确识别率可以相当接近100%。不过在实际应用中当这些前提条件被破坏时，对可用性也会产生一定的影响。人们还试图在手持设备上应用语音识别技术，目前这种应用主要受到计算平台的性能和价格的制约。换言之，语音识别技术要进入成熟的商业运用还有一段艰难的路程，还必须在很多方面取得突破性进展。

1.提高可靠性。
一方面，语音识别技术需要能排除各种声学环境因素的影响。在公共场合，人能够有意识地摒弃环境噪声并从中获取自己所需要的特定声音，但几乎不可能指望计算机能听懂你的话。来自四面八方的环境噪声和背景话音，让它茫然而不知所措，极大地限制了语音识别技术的应用范围，目前，要在嘈杂环境中使用语音识别技术必须有特殊的抗噪(Noise Cancellation) 麦克风才能进行，这对多数用户来说是不现实的。另一方面，在日常生活中人们说话有较大的随意性（Spontaneous），常常不经过特殊准备，并带有明显的言语习惯，例如，说话时带有地方口音、重复、更正、插入、犹豫、停顿、咳嗽、咂嘴、不受语法限制等。相对于在讲话方式和讲话内容都经过特殊准备的符合语法规则的流畅的标准“朗读式语音”而言的，这种自然口语语音的识别要困难得多。提高可靠性的目的是当使用环境的声学特性与训练语音的收集环境的声学特性不一致或用户的言语方式与训练语音的言语方式不一致时，语音识别系统性能的下降不会太大。

2.增加词汇量。
系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。如果语音识别系统使用的声学模型和语音模型太过于局限，当用户所讲的词汇超出系统已知的范围，或突然从中文转为英文、法文、俄文，计算机就会常常输出混乱奇怪的结果。随着系统建模方法的改进、搜索算法效率的提高和硬件资源的发展，将来的语音识别系统可能会做到词汇量无限制和多种语言混合，用户在使用时可以不必在语种之间来回切换，不受或少受词汇量的限制。

3.应用拓展。
语音识别是一种赋能技术，现有的很多人机交互界面都可能通过补充语音识别功能而得到改善，还可以塑造或创造一批新的机器和新的信息服务行业进入人的生活。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事，在许多“手忙”、“手不能用”、“手所不能及”，“懒得动手”的场景中，包括象驾驶室、一些危险的工业场合、远距离自动信息获取、家电控制等方面，语音识别技术可能带动一系列崭新或更便捷功能的设备出现，更加方便人的工作和生活。

由于知识层次和知识领域的差异，现实生活中有相当一部分人很难得到现代化生活可能给带来的便利，包括信息服务和其他各类先进设备可提供的帮助。语音识别技术有助于改善这种情况，使社会各个阶层更多的人享受到更多的社会信息资源和现代化服务，提高整个社会的信息化程度和现代化程度。计算机通信技术的发展，使互联网在信息聚集和传播方面成为很先进社会基础设施，但由于使用手段的限制，还有相当多的人或在相当多的场合还无法广泛普及使用。有线固定电话和无线移动电话网络的应用虽然已经广泛普及到几乎社会所有阶层，但电话网络现在的最主要的功能还是话音通信。如果将两者结合，用电话网络作为互联网的语音入口，用语音识别作为人与网上信息交互的便捷工具，则可以在相当大的范围，使人们享受到更多的社会信息资源和现代化服务，促进社会的进步。例如，用电话与信息代理机器交谈，随时得到天气、娱乐、旅行、学习的日常生活信息，了解*的各种政策法规等等。

将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术，可以用于突破不同语种的人说话交流的语言壁垒。

4.降低成本减小体积。
降低成本是任何技术商业化的重要前提，一般的途径是通过规模生产来摊薄成本。目前降低语音识别技术成本的主要困难在于这项技术仍然处在逐步改进的过程中，对于多数要求较高的功能和性能的应用，往往都带有量身定制的特点，规模生产定型产品的条件尚不成熟。只有在功能和性能非常有限的语音识别应用方面，可以规模生产一些低成本产品，但这些产品的应用常常又受到功能和性能瓶颈的限制。微型化是语音识别技术商业应用的另一个重要途径，这取决于语音识别技术本身进步的程度，也和微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上，大幅度降低产品成本，是语音识别技术真正进入大规模应用的重要条件。

21世纪是信息和网络的时代，Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来，巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围，几乎所有人与机器进行信息交互相关的需求和服务，例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等，都可能会在网络上实现。语音识别技术研究和应用的重要发展趋势是，让人在任何地方，任何时间，对任何事都能够通过语音交互的方式，更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语音识别技术可能的便捷优点。

上一篇：中文语音输入：讯飞语音输入法iPad版截图曝光

下一篇： *一大学指控Siri侵犯其专利

语音识别技术的发展趋势

iOS自带文本转语音技术(TTS)的实现即语音播报的实践

iOS自带文本转语音技术(TTS)的实现即语音播报的实践

为textView添加语音输入功能的实例代码(集成讯飞语音识别)

如何用声音来操控IE浏览器及语音识别引擎的使用

语音识别进化简史：从造技术到建系统

微信小程序和百度的语音识别接口详解

如何用声音来操控IE浏览器及语音识别引擎的使用

基于OpenCV的PHP图像人脸识别技术

微信公共服务平台开发（.Net 的实现）4-------语音识别

客户体验的未来：类Siri语音识别和身份验证