语音识别关键技术研究
语音识别关键技术研究
息晓静 林坤辉 周昌乐 蔡骏(厦门大学软件学院,厦门 361005)
【摘要】采用隐马尔可夫模型(HMM)进行语音声学建模是大词汇连续语音识别取得突破性进展最主要的原因之一,HMM本身依赖的某些不合理建模假设和不具有区分性的训练算法正在成为制约语音识别系统未来发展的瓶颈。神经网络依靠权能够进行长时间记忆和知识存储,但对于输入模式的瞬时响应的记忆能力比较 差。采用混合HMM/ANN模型对HMM的一些不尽合理的建模假设和训练算法进行了革新。混合模型用神经网络非参数概率模型代替高斯混合器(GM)计算HMM的状态所需要的观测概率。另外对神经网络的结构进行了优化,取得了很好的效果。
【关键词】HMM;ANN;非参数概率模型;BP
1引言
语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。HMM在语音处理各个领域都获得了巨大的成功,但是它本身有很大的限制.神经网络依靠权值信息能够进行长时间记忆和知识存储,但是对于输入模式的瞬时响应的记忆能力较差,很难有效地对时间变量建模。
鉴于上述HMM和ANN在处理语音识别方面各有优缺点,所以引入了HMM/ANN混合模型。对于这种混合模型的研究得到了国外很多研究机构的重视,如Berkeley的国际计算机学院(ICSI)、斯坦福研究院(SRI)、剑桥大学的SVR等机构。他们研究的语音识别系统的性能在某些方面已经明显优于传统的HMM系统。本文采用的利用BP网络代替高斯混合器来计算HMM的状态所需要的观测概率。该混合模型利用连续密度隐马尔科夫模型(CDHMM)来对短时语音分量建模,同时利用ANN强大的区分能力来计算CDHMM的观察概率。另外对混合模型进行优化,提出了一种猜测初始隐节点数和对训练结束后的网络进行隐节点剪枝的算法,并用广义的Hebb算法对网络的参数进行优化。
2HMM的建模假设及对识别系统的影响
随着对HMM技术的深入研究,人们发现HMM还存在着很多和语音信号的实际情况不相符合的先验假设和训练方面的缺陷,它们正在成为语音识别系统的性能进一步提高的障碍。主要表现在:
(1)一阶马尔可夫模型假设:马尔可夫链在n时刻处于状态正的概率只与n-l时刻所处的状态有关,而与n-l时刻以前的状态及声学矢量序列无关。这一假设对HMM产生的一个影响是HMM对协同发音的建模比较困难,因为相邻状态对声学分布影响很大;另一个影响是用指数递减分布描述时长分布,而不是更精确的泊松分布。
(2)观察矢量帧之间独立性假设,每一时刻HMM只能考虑当前帧语音,为了考虑前面语音帧的影响,HMM必须将这些帧的信息吸收到当前帧。
(3)观测概率的分布假设:通常假设HMM的状态观测概率分布是多维高斯分布或高斯分量的混合,对于连续密度的HMM模型,这一假设就导致了模型的不匹配,即统计模型的先验选择和真实密度之间的弱匹配。
(4)HMM的前后向训练算法是在最大似然(ML)准则下导出的。由最大似然准则训练得到的声学模型的区分能力很弱,虽然用相互恼准则能够提高模型间的区分能力,但这一方法实施起来太复杂。
(5)HMM是一种统计模型,模型参数的估计需要大量的训练数据,而在实际应用中总是存在参数估计精度与训练数据之间的矛盾,而且训练过程计算量大,耗时长,对连续密度HMM来说尤其如此。
正是由于HMM存在着这些不足,所以需要对其进行优化和改进,其中一个思路是引入新的模型来弥补HMM的缺陷。
3人工神经网络的特点
人工神经网络的出发点是通过模拟大脑的机制,将包括听觉系统的生物神经系统的信息处理机制引人机器学习的研究中,使其具有学习和理解的能力。系统的所有计算都是由神经元单元完成的,而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的,具有传统的数字计算机系统即线性网络没有的优点,主要表现在:
(1)自组织和自适应性神经网络可以从数据集中自适应地求解答案,可以有效地用于学习数据集的内在联系。对于语音识别来说,它可用于解决非特定人语音识别等问题。
(2)学习功能:神经网络通过学习能掌握输入和输出之间的任意映射关系,所以网络可以通过学习将语音模式映射成因素类别。
(3)可推广性:神经网络不仅能记忆训练数据模式,还能学会相似的模式,可以从训练数据推广到新数据。在语音识别上可大大减少训练所需数据量。
(4)非线性:神经网络可以提取系统输入之间复杂的相互作用关系,计算非线性函数,对输入进行复杂的变换,更符合现实世界的实际问题,如语音信号是一个高度非线性的过程。
(5)鲁棒性:神经网络对物理损伤和带噪声的数据不敏感,而且带噪声的数据有助于网络形成更好的泛化能力。这一点对于语音识别特别有价值,因为经常在噪声环境下录入语音。
(6)一致性:神经网络提供了一致的计算模式,可以很容易地融合各种约束条件,就使我们很容易使用倒谱和差分倒谱输入,还可以在听觉一视觉双模态语音识别系统中将声学和视觉因素结合起来。
(7)并行性:神经网络在本质上是高度并行的,因此它非常适合在大规模并行机上实现,这就在根本上支持语音数据的高速处理。
由于上述的优点,人工神经网络在语音识别中得到了广泛应用,但是它也有很多的限制阻碍识别性能的提高。所以我们提出了HMM和ANN的混合模型发挥他们各自的优势。
4HMM和ANN的混合模型
语音信号是一种典型的动态模式序列,前后帧之间的时间相关性非常强,所以要将神经网络应用于语音识别,必须解决好瞬时输出的记忆问题。因此考虑将人工神经网络与已经发展的方法HMM结合构成一种混合系统,在这种系统中,神经网络或者作为其前端进行预处理,或者作为后端进行后处理。
4.1HMM和ANN的结合方式
ANN和HMM可以以不同的方式进行结合,如ANN直接实现HMM,两者在帧层面上的结合,语音层面上的结合,音段层面的结合和子层面上的结合等方式。本文介绍的并非用神经网络直接实现HMM,而是探索一种混合模型,即能优化HMM模型,又能充分利用每一种技术的长处:HMM的时间建模和ANN的声学建模,特别是用神经网络计算HMM状态的观测概率。用神经网络来估计观测概率,设计和训练神经网络的方法有很多,最简单的方式就是将一帧语音矢量直接映射成观察概率,网络的训练也是一帧接一帧地进行,这种方法就成为帧层面上的网络训练。
在音段层面方式中,神经网络的输入来自整个语音段,而不是一帧语音或固定长度的语音窗。这样就可以让网络更好地利用存在音段中的所有语音。贞之间的相关性,而且还可以更容易地利用其它信息,比如时长。这个方法的缺点是必须先对语音进行分段,神经网络才能对分出的各个音段进行计算。在这些不同的结合形式中,实验结果表明,帧层面上的结合比较符合HMM和ANN两种方法的特点。
4.2混合HMM/ANN模型的特点
与传统的HMM相比,混合HMM/ANN模型不仅在理论上抛弃了HMM一系列不合理假设,而且在训练过程中自然地引入了HMM状态之间的区分机制。混合模型克服了最大似然准则(MLE)区分能力差的缺陷,而且在系统体系上又保持了HMM的框架,所以混合HMM/ANN模型是HMM和ANN两种模型的有机结合,具有明确的数学和物理意义。与传统的HMM相比,混合HMM/ANN模型还为融合多种语音特征矢量,考虑不同层次上的多种约束提供了一个非常方便的接口。
混合模型结构还充分利用了ANN的下述特性,克服了HMM的一系列缺陷和不足,主要特点如f:
(1)混合模型可以自适应学习以适应语音数据的变化;可以不必拘泥于选取特殊的语音参数而对综合的输入模式进行训练和识别。
(2)可以把人的听觉模型融合到ANN巾,在ANN的输入端可以同时加载相邻数帧的语音特征矢量,因而和语音信号的实际情况更加符合。
(3)分类神经网络的输出端可以逼近任意形式的概率分布函数,它能很好地掌握蕴含在训练数据中的概率分布特性,所以能够较真实地描述语音信号的概率分布特性。
(4)ANN的训练着眼于描述类间的边界,而不是描述每一类内的分布,所以是一种区分性训练。在处理语音信号的时变特性方面,混合模型利用了HMM在这方面的特长。
所以混合模型在系统框架上保持了传统HMM的框架,而局部功能模块如:概率估计、上下文关联等则通过ANN实现,这样有机地将HMM和ANN的各自优势统一在→个系统之中,又弥补了各自的不足。
4.3混合模型的算法
在混合HMM/ANN中用神经网络来进行声学建模,而时域建模依赖于传统的HMM。用神经网络进行声学建模一般有两种方法:
第一种方法是预测网络。预测网络的输入是相继的几帧语音特征矢量,输出下一帧语音的预测值,通过给每一个音子分配一个预测网络,就可以比较每个音素预测网络的预测误差,选取其中具有最小预测误差的网络与当前语音段匹配,体现了相邻语音帧之间的时域相关性。
第二种方法是分类网络。在分类网络中,输入还是相继的几帧语音矢量,但输出直接映射成HMM状态。分类网络可以用N个输出节点表示N个类,将输入映射成N类中的一种。分类网络具有简单直观、在本质上是区分性的、在设计上是模块化的、可以方便地组合成更大的系统、具有完善的数学解释等优点,所以可以很容易地集成到HMM的统计识别框架中。
在混合HMM/ANN模型方法中,采用分类网络来估计HMM状态的后验概率。传统的HMM/ANN模型是用神经分类网络代替了高斯概率密度分布混合器。因此可以用语法上下文相关的输入模式作为神经网络的输入,这样就考虑了语音矢量间的时间相关性。神经网络输出的后验概率密度为(1)式。而HMM状态需要的是似然概率密度p(x,lq,),应用贝叶斯公式,我们就可以从后验概率密度,导出尺度化的后验概率密度:(2)式。在进行识别时,因为p(x,)对所有的路径来说是一样的,所以尺度化的似然函数并不会改变识别的结果。因为分类网络极大地体现了混合模型的精髓,所以我们采用它来建立语音识别系统。在用混合HMM/ANN模型进行语音识别时,ANN计算的是HMM状态的尺度化观察概率。整个识别过程:分两步进行:(1)计算t时刻所有HMM状态的尺度化观察概率;(2)计算t时刻激活路径的路径积累概率,并根据路径积累概率进行剪枝,确定t+l时刻的激活路径。
(1)
(2)
(3)
(4)
对于每一帧语音向量,可以用后序遍历计算每个节点网络(BP)的输出向量:(3)式。许计算节点的局部输出如下:
?
这个总体输出就是后验概率:(1)式的估计。用后验概率除以状态的先验概率就得到了尺度化的似然概率:(4)式。
在帧同步Viterbi路径搜索算法中,对于每一帧语音矢量鸟,我们可以直接将尺度化观察概率累计到每条活跃路径的路径概率中:
其中,aJ..,q.(x,)表示t时刻达到模型凡的状态qk的最优路径积累概率,pre(qk)表示状态的在搜索网络中的所有前趋节点集合,龟,k表示从前趋节点z到状态k的转移概率。根据当前活跃路径的积累概率的计算结构,我们可以剪枝掉一些积累概率小于某个阑值的路径,得到t+l时刻的活跃路径,对于每一帧语音向量,我们都进行上面的步骤,直到到达发音语句结束。从结束节点的最优路径逐步向前回溯,就可以得到和发音语句相对应的HMM模型序列这就是声学模型识别的首选结果。
4.4混合模型的优化
改进l提出一种新的隐节点剪校算法。
优化模型考虑的首要问题是如何确定最优的隐节点个数,主要有两种方法:
(1)隐节点增长算法:是在训练中不断增加隐节点数目来改进帧识别率。
(2)隐节点剪枝算法:是在训练过程中去掉多余的隐节点和连接权。
经分析比较,我们提出了一种新的隐节点数目确定方法:
(1)用迭代自组织数据分析方法得到训练数据的聚类中心数目,再为属于不同类的一对聚类中心分配一个隐节点。这样,隐节点就是对输入模式形成高维空间,在这个空间中输入节点更容易形成决策曲面。通过这样就估计了一个对于训练和训练后的剪枝都合适的隐节点的数日N。
(2)训II练具有N个隐节点的BP网络。
(3)通过迭代去除网络中的冗余隐节点,然后在保持原有输入输出关系的前提下,调整剩下隐节点的权值,最后得到一个最优的网络隐节点个数,如图1所示,在移去节点A后,调整余下节点的权参数,使得节点B的净输入值在最小平方定义下近似保持不变,即对于训练集中所有的模式有:
用LMS迭代法可以得到这个线性方程在最小平方意义下的最优解(矿c.B,8'D,B),我们为了保证输入输出关系,所以应该去掉使线性方程的残差达到最小的结点。因为用LMS算法解上述方程,残差是随着迭代次数单调减小的,所以只需要计算每个节点的初始残差就可以确定应该去掉哪个节点了,该算法的计算量非常小,而且冗余节点的检测简单易行。
改进2网络权参数的初始化。
在开始训练网络之前,所有的权值都必须赋予一个初值,即初始化问题。它是神经网络训练的一个很重要的问题,直接关系到训练结果的收敛。一般初始化的主要思想是通过考察网络的学习机制或是采用先验知识来尽可能优地进行网络权值初始化。对于BP神经网络,权值初始化还没有一个简单有效的办法,这里我们用神经网络来进行分类,因此用Hebb规则来进行初始化,取得了良好的效果。
它的原理是:设隐节点是线性的,对于输入模式Xι,i=1,2,...,k-1,引起的输入节点到隐节点的权矩阵为:
网络参数的初始化可以分成两部分,一个是输入节点和隐层节点之间的连接权的初始化,一个是隐层节点和输出层节点之间连接权的初始化。首先我们采用广义Hebb规则来初始化输入节点和隐层节点之间的连接权,然后采用监督训练算法初始化输出层的连接权vi,i=l,2,…,nko
上一篇: 类Siri产品WonderVoice:与Facebook语音沟通
下一篇: 你好!新语音识别时代