认准语音识别的“内核”

程序员文章站 2022-04-01 22:40:07

有专家说，语音识别用途广泛，潜力巨大，但要真正实现人与计算机的自然交流却很难，它不仅需要高深的基础理论的突破，更需要大量的实际工作的积累。...

有专家说，语音识别用途广泛，潜力巨大，但要真正实现人与计算机的自然交流却很难，它不仅需要高深的基础理论的突破，更需要大量的实际工作的积累。

    语音交互就要实现？

    1996年，IBM公司发布了VoiceType中文语音识别软件，首次将其语音识别产品介绍给中国用户；1997年9月，IBM推出了ViaVoice中文连续语音识别系统，标志着中文语音识别技术商业化进程开始启动。

    然而，语音识别技术并不是一夜之间冒出来的神话，自从有了计算机，人们就开始了语音识别技术的研究，因此可以说语音识别的历史和计算机一样长。特别是在70年代前后，研究的脉络日渐清晰，贝尔实验室和IBM等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果，并且在商业上应用成功，贝尔实验室主要偏重于电信方面应用的语音识别系统，如电话查询等；而IBM则偏重于商务应用，因而在连续语音识别上取得了不小的成功。

    不谈商业方面的应用，事实上，很多公司都提供语音识别的引擎（Engine），并且都表示能支持微软的SAPI。看一看SAPI 4.0SUITE就不难发现，微软在这方面的研究并不逊色，只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎，如SpeechRecognition（语音识别）、Command&Control（发布指令并控制）、PhoneQuery（电话语音识别）、Texttospeech（文本语音转换）等。

    今天，许多用户已能享受到语音技术的优势了，可以对计算机发送命令，或者要求计算机记录用户所说的话，以及将文本转换成声音朗读出来。尽管如此，距离真正的人机*交流的境界似乎还很遥远。现在已有商用系统存在的主要问题是：系统鲁棒性还有待改进，如对于噪声环境下或方言的语言识别率和稳健性等都不尽如人意。

    不可否认，语音识别技术还有一段路需要走，要做到真正成功的商业化，它还需要在很多方面取得突破性进展，这实际上也是其技术的未来走向。

    语音识别难在哪儿？

    计算机自动语音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实，人们很早就认识到语音识别对于人类生活的重要性。世界上第一台计算机问世之后，马上就有人想到要让计算机听懂人说话。所以说，语音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代，今天已经进入到了普通家庭。但是，语音识别方面的产品却迟迟未能进入市场。那么，它难在哪儿呢？

    计算机语音识别是一个模式识别匹配的过程。在这个过程中，计算机首先要根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入的语音匹配的模板。然后，据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。

    一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律，所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的，很难把握。这就是目前语音识别过程中的最大难点。

    其次，模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板，往往需要有大量的原始语音数据来训练语音模型。因此，在开始进行语音识别研究之前，首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音，并且必须要有代表性，能均衡地反映实际使用情况。

    有了语音数据库及语音特征，就可以建立语音模型，并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态（如对语音库中的所有语音有最好的识别率），不断地调整系统模型（或模板）的参数，使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程，要求计算机有强大的计算能力，并有很强的理论指导，才能保证得到良好的训练结果。

    当语音识别系统对语音进行识别时，相对来说，其识别过程要比训练过程简单，对计算机的运算能力要求也很低，并且速度较快。这有利于实时地实现语音识别系统和进行商品化开发应用。

    那么，制约语音识别技术发展的根本是什么呢？接受记者采访的清华大学王作英教授认为，语音识别的关键是其依据的模型和算法，模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音识别领域，固然有资金实力、人力资源等的竞争，但最根本是其关键核心技术——模型和算法的竞争。

    DTW逐渐淡出　HMM占据统治地位

    要建立一个语音识别系统仅有一个好的语音特征还不够，还要有一个好的语音识别的模型和算法。在语音识别系统中通常分为两个部分：声学层部分主要研究如何充分利用语音信号中的信息；语音学层部分主要研究如何充分利用已有语音学知识来提高系统的识别率。目前，大家关注的中心是低层中声学层部分所涉及的模型和算法。

    目前，在研发语音识别系统时常用的算法有基于神经网络的训练和识别算法、基于动态时间归整匹配（DTW）的识别算法和基于统计的隐含马尔可夫模型（HMM）识别和训练算法。

    基于神经网络的训练识别算法由于实现起来较复杂，且识别率并不见得比基于统计的语音识别模型好，因此，这种算法目前仍处于实验室研究阶段。

    基于动态时间归整匹配的DTW算法从目前来看，可能是一个最为小巧的语音识别的算法。其系统开销小，识别速度快，在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是，如果系统稍微复杂一些，这种算法就显得力不从心了。

    基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早，人们对它的研究也比较深入，已建立起了完整的理论框架。从20世纪80年代初人们开始用这种模型来描述语音信号后，就不断有人对它进行了各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态，这种状态是不能被直接观测到的（如这种状态可以是语音的某个音素），而是以某种隐含的关系与语音的观测量（或特征）相关联。而这种隐含关系在HMM模型中通常以概率形式表现出来，模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。

    如今，各种形式的HMM模型和算法已日趋成熟，以它为基础已经形成了语音识别的整体框架模型，它统一了语音识别中声学层和语音学层的算法结构，制定了最佳的搜索和匹配算法，以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此，HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型，从中也可看出好的理论体系对研究工作所起的重要的指导作用。

    HMM的“内伤”

    许多从事语音识别技术研究的公司都把HMM当做“救命稻草”，对其展开了大量的研究开发，随着语音识别研究工作的深入开展，HMM语音识别方法愈来愈受到人们的重视，但与此同时，人们也愈来愈认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷，这就是：

    经典HMM是一个齐次的Markov模型，状态转移概率与状态驻留长度无关，与语音的实际过程不符；

    经典HMM现有的模型训练算法和识别算法都是假设语音特征是相互独立的，这也不符合语音信号的实际情况；

    经典HMM模型用于大词汇表的识别系统时，其模型的训练量是灾难性的；

    模型的存储量太大。

    任何一个成功的语音识别模型，都是基于其参数具有聚类性这一基础上的。HMM模型之所以能达到很高的识别率，是由于反映其状态的特征参数具有聚类性，从而它必然是对应于语音学中的语音单位（如音素），声学上则必然是对应于某种声学单元或发声器官的某种结构状态。语音学的研究表明，语音单位（如音素）在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构。

    DDBHMM浮出水面

    王作英教授1988年年底向“863”计划提交的“语音识别的改进隐含马尔可夫模型”，可以说是对语音识别模型算法的一次重大革新。它指出了传统的HMM模型在语音识别应用中存在的问题，得到了一个基于段长分布的非齐次隐含马尔可夫模型（Duration Distribution Based Hidden Markov Model，DDBHMM）。以此理论为指导所设计的语音识别听写机系统在1994年～1998年的全国语音识别系统评测中取得三连冠，从而显示了这一新模型的生命力和在这一研究领域内的领先水平。

    HMM模型是在国际上在语音识别系统中被广泛引用的一种模型，但是它有一个主要的缺点，即根据词模型推出的状态段长分布是指数分布，这不符合语音的本质属性。而王作英教授提出的DDBHMM（基于段长分布的HMM）模型解决了这一缺陷。它是一个非齐次的HMM语音识别模型。在此模型中用状态的段长分布函数替代了齐次HMM中的状态转移矩阵，彻底抛弃了“平稳的假设”，而从非平稳的角度考虑问题，使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾。

    同时，由于非齐次HMM是一个有后效过程，不能用Bellman的动态规划求最大似然路径，也不能用Baum的重新估值算法对模型参数进行训练。对于这类有后效的多阶段决策问题，如果用完全搜索算法求解最佳路径，其计算复杂性太大，甚至在现有硬件水平上无法实时运行。因而，必须建立新的非齐次HMM训练算法和识别算法。DBBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度（训练算法比流行的Baum算法复杂度低两个数量级）。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制，因此为语音识别研究的深入发展提供了一个和谐的框架。

    有好的模型只是一个开始，还需要做大量的工作。以前的模型可以借助其他技术如神经网络技术改进模型的不足，而DBBHMM模型的出现促进了语音识别模型与算法的竞争与发展。未来，在语音识别领域，基于HMM和DBBHMM两种模型的语音识别系统将齐头并进，展开竞争。基于HMM的系统“走得早”，且有大量资金和技术力量的支持；后发的DBBHMM系统有理论优势，但需要做的工作却很多，短期内两种系统将共存。另外会不会出现更好的第三种模型算法，现在还不能断定。

上一篇：机器人声控系统的设计

下一篇： Siri联合创始人：苹果的“语音助手”将改变世界