微软:语音识别技术突飞猛进
微软:语音识别技术突飞猛进
2011-09-27 10:42:16 】
“也有人尝试过上下文相关的人工神经网络模型,” 俞栋博士指出:“但他们使用的架构效果不佳。在我们发现所用的新方法使语音搜索的准确率大大提高地那一刻,我们非常激动。我们意识到,通过使用深层神经网络对senones直接建模,我们可以比最先进的常规CD-GMM-HMM大词汇量语音识别系统相对误差率减少16%以上。考虑到语音识别作为一个活跃的研究领域已经存在了50多年,这样的进展确实具有非常重要的意义。”
为了加速实验,研究小组还使用了通用图形处理器来进行语音模型训练和解码。神经网络的计算在结构上类似于电脑游戏中使用的3-D图形,而现代的图形卡可以同时处理近500个这样的计算。在神经网络中运用这种计算能力大大提升了建模可行性。
2010年10月,俞栋博士在微软亚洲研究院的一次内部研讨中介绍了这篇论文,他提到在此基础上开发性能更强的大词汇量语音识别声学模型面临以下挑战:实现并行训练和使训练扩展到更大的训练集。Seide被这项研究深深触动,他随即加入该项目,并为团队带来了大词汇量语音识别、系统开发和基准测试等方面的经验。
神经网络基准测试
“我们通常认为数百上千的senones数量太大而无法用神经网络准确地建模和训练,”Seide说:“然而,俞栋和他的同事们证明,这样做不仅是可行的,而且还能显着提高准确率。现在,我们要证明的是这套CD-DNN-HMM模型可以有效使用更多的训练数据。”
在新项目中,CD-DNN-HMM模型被用于语音-文本转换,并在研究界公认的极具挑战性的电话语音识别标准数据集Switchboard上进行评测。
首先,研究团队对深层神经网络训练工具进行了改写,以支持更大的训练数据集。然后,在微软亚洲研究院软件开发工程师李刚的帮助下,他们将新的模型和工具在含有300小时语音训练数据的Switchboard标准数据集上进行评测。为了支持如此大量的数据,研究人员建立了一些巨大的神经网络模型,其中一个包含了6,600多万神经间连结,这是语音识别研究史上最大的同类模型。
随后的基准测试取得了令人惊讶的低字词错误率——18.5%,与最先进的常规系统相比,相对错误率减少了33%。
“我们开始运行Switchboard基准测试时,”回忆说:“我们只期望实现类似语音搜索任务中所观察到的结果,也就是16-20%的相对改善。整个训练过程大约花费了20天的计算时间,而且每隔几个小时就产生一个稍稍改良的新模型。每隔几个小时,我都会迫不及待地测试最新模型。你无法想象,当相对改善超出预期的20%时,我们有多兴奋,而且模型仍在不断改善,最后定格在30%以上。过去,只有极少数的单项技术能在语音识别方面实现如此幅度的改善。”
由此产生的论文题为《使用上下文相关深层神经网络进行交谈语音转写》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李刚和俞栋合着),已经于8月29日发表。这项工作已经引起了科研界的高度重视,而研究团队希望通过在会议上发表这篇论文进一步启迪这条新的研究路径,并最终将基于深层神经网络的大词汇量语音识别推到一个新的高度。
离未来更近了一步
这种基于人工神经网络的非特定人语音识别新方法所实现的识别准确率比常规系统高出了三分之一以上,俞栋、Seide和他们的团队向着流畅的“语音-语音交互”这一目标又迈进了一大步。这项创新简化了大词汇量语音识别中的语音处理,能实时识别并取得较高的准确率。
“这项工作仍处于研究阶段,还会面临很多挑战,其中最严峻的挑战在于扩展到使用数万小时训练数据。我们的研究成果只是一个开始,这一领域将来还会有更多令人振奋的进展。”Seide说:“我们的目标是实现以前没法实现的新的基于语音的流畅服务。我们相信,这项研究最终将改变我们的工作和生活。想象一下吧:用语音-语音实时翻译进行自然流畅的交谈,用语音进行检索,或者用交谈式自然语言进行人机互动。”
下一篇: 语音识别技术综述[另类其他]