认准语音识别的“内核”

程序员文章站 2022-04-01 22:43:30

有专家说，语音识别用途广泛，潜力巨大，但要真正实现人与计算机的自然交流却很难，它不仅需要高深的基础理论的突破，更需要大量的实际工作的积累。...

    有专家说，语音识别用途广泛，潜力巨大，但要真正实现人与计算机的自然交流却很难，它不仅需要高深的基础理论的突破，更需要大量的实际工作的积累。

    语音交互就要实现？

    1996年，IBM公司发布了VoiceType中文语音识别软件，首次将其语音识别产品介绍给中国用户；1997年9月，IBM推出了ViaVoice中文连续语音识别系统，标志着中文语音识别技术商业化进程开始启动。

    然而，语音识别技术并不是一夜之间冒出来的神话，自从有了计算机，人们就开始了语音识别技术的研究，因此可以说语音识别的历史和计算机一样长。特别是在70年代前后，研究的脉络日渐清晰，贝尔实验室和IBM等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果，并且在商业上应用成功，贝尔实验室主要偏重于电信方面应用的语音识别系统，如电话查询等；而IBM则偏重于商务应用，因而在连续语音识别上取得了不小的成功。

    不谈商业方面的应用，事实上，很多公司都提供语音识别的引擎（Engine），并且都表示能支持微软的SAPI。看一看SAPI 4.0SUITE就不难发现，微软在这方面的研究并不逊色，只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎，如SpeechRecognition（语音识别）、Command&Control（发布指令并控制）、PhoneQuery（电话语音识别）、Texttospeech（文本语音转换）等。

    今天，许多用户已能享受到语音技术的优势了，可以对计算机发送命令，或者要求计算机记录用户所说的话，以及将文本转换成声音朗读出来。尽管如此，距离真正的人机*交流的境界似乎还很遥远。现在已有商用系统存在的主要问题是：系统鲁棒性还有待改进，如对于噪声环境下或方言的语言识别率和稳健性等都不尽如人意。

    不可否认，语音识别技术还有一段路需要走，要做到真正成功的商业化，它还需要在很多方面取得突破性进展，这实际上也是其技术的未来走向。

    语音识别难在哪儿？

    计算机自动语音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实，人们很早就认识到语音识别对于人类生活的重要性。世界上第一台计算机问世之后，马上就有人想到要让计算机听懂人说话。所以说，语音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代，今天已经进入到了普通家庭。但是，语音识别方面的产品却迟迟未能进入市场。那么，它难在哪儿呢？

    计算机语音识别是一个模式识别匹配的过程。在这个过程中，计算机首先要根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入的语音匹配的模板。然后，据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。

    一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律，所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的，很难把握。这就是目前语音识别过程中的最大难点。

    其次，模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板，往往需要有大量的原始语音数据来训练语音模型。因此，在开始进行语音识别研究之前，首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音，并且必须要有代表性，能均衡地反映实际使用情况。

    有了语音数据库及语音特征，就可以建立语音模型，并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态（如对语音库中的所有语音有最好的识别率），不断地调整系统模型（或模板）的参数，使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程，要求计算机有强大的计算能力，并有很强的理论指导，才能保证得到良好的训练结果。

    当语音识别系统对语音进行识别时，相对来说，其识别过程要比训练过程简单，对计算机的运算能力要求也很低，并且速度较快。这有利于实时地实现语音识别系统和进行商品化开发应用。

    那么，制约语音识别技术发展的根本是什么呢？接受记者采访的清华大学王作英教授认为，语音识别的关键是其依据的模型和算法，模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音识别领域，

上一篇： HTC Vive与加州AI公司ObEN合作，正式进军VR社交

下一篇：英特尔将推出基于本地处理的语音识别系统速度超Siri