微软计算机“同声传译”用本人声音说中文

程序员文章站 2022-06-23 14:06:18

　　微软昨天发布了一段很有意思的视频，视频中，微软首席研究官瑞克•拉希德(Rick Rashid)解释并演示了一些关于计算机语音识别方面的重大进展，这些进展有助于机器更好地理解...

　　微软昨天发布了一段很有意思的视频，视频中，微软首席研究官瑞克•拉希德(Rick Rashid)解释并演示了一些关于计算机语音识别方面的重大进展，这些进展有助于机器更好地理解他用英语说的话，这些话同时被计算机自动转录下来。接着，他演示了如何将这些英语立即翻译成普通话，同时保持了自己的语音语调，听起来像自己说的一样。

　　有趣之处在于，微软公司表示通过对大量数据的深入分析，已经有能力将英文转换成普通话的发音说出来，当视频中的瑞克对该系统讲了大约1小时左右的英语以后，系统就可以用他的语音语调说普通话了。

　　微软介绍说，实现这项技术的工作流程大概是：首先程序需要识别说话者所使用的语言；然后将这些语言转换；最后再一次性的翻译，并使用另一种语言输出，同时可以保留个人声音的特点，这样就使得输出的声音不再是自动合成的效果。

　　虽然这项技术的细节令人难以理解，不过作为微软研究院负责人的瑞克透漏了一些信息，他说道：“大概在两年前，微软研究院和多伦多大学的研究人员们取得了一项突破，利用模拟人脑行为的‘深度神经网络(Deep Neural Networks)’技术，能让语音识别器更具辨别能力，其性能优于以往的方法。通过这种技术，我们让语音识别的错词率比以往的方法降低了30%，也就是说以前每4到5个词里面便有一个是错误的，而现在每7到8个词里才错1个。”

　　现阶段，用户使用前大概需要1个小时的语音输入时间，以让系统辨别每个人声音中的细微差别，同时建立相应的模型。此外，该项目已经能够支持包括普通话在内的26种语言，相信该技术在实时口译工具，语言学习工具等方面会有广阔的应用前景。

上一篇：苹果下令：六月起非原生手表软件将被下架

下一篇：飞利浦也推智能手表今年9月发布