电脑能听懂人话?语音识别系统探秘CFan加油站-《电脑爱好者》杂
以前为了让电脑明白我们的心意可着实要费一番工夫,学这语言,那语言,总之都是学电脑的语言。且不说费时费力,就是学会了,也是要用键盘鼠标和电脑打交道。还好,电脑渐渐聪明起来,能听懂我们的语言了!
“语音识别技术”可能你还不是很熟悉,不过当你拿起手机使用语音拨号的时候,用简单的语言命令来控制一些高级电器设备的时候,就已经在享受这项技术带来的便利了。目前语音识别技术的发展已经能够成功地识别我们大部分的语言。微软推出的语音输入法就是一个出色语音识别产品,我们通过与主机相连的话筒读出汉字的语音,电脑利用语音识别系统分析辩识汉字或词组,把语音信号转变为相应的文本或命令,就完成了“语音输入(声控输入)”。再也不用眼盯屏幕、手敲键盘了,将自己的想法“录”入电脑,我们拥有了一个不知疲倦的秘书!类似的产品还有IBM语音输入法,在语音识别方面也有不错的表现。
实战:Word语音输入 动口不动手
小张最近要帮经理整理一堆文件,很大部分手写材料需要重新输入电脑。手累了,眼花了,是否可以歇歇了?如果电脑能听懂自己的语言,根据声音自动输入文字该多么方便。
首先将Microsoft Office XP安装光盘插入光驱,执行“工具→语音”命令,然后按提示添加“语音输入”功能(或者在开始安装时选择完全安装)。该功能添加完成后,输入法状态条上会出现“麦克风”和“语音工具”,系统会弹出要求进行语音识别练习的对话框,戴好耳麦,调整好话筒与嘴之间的距离,右击“语音工具”,选择“设置”会出现“文字服务和输人语言”选项卡,选择“已安装的服务→语音识别→训练配置文件→声音训练”,按要求填写完内容,就可以根据提示开始训练会话了。训练的会话越多,准确率越高。正式上岗时,进入“工具栏→语音”项,依次选中工具栏上的“麦克风”和“听写模式”按钮,将光标定位在文档中合适的位置上,对着话筒说出要输入的内容即可。话落字现,非常方便。如果觉得前面的语音练习效果不太理想,可以进入“控制面板→语音属性→训练配置文件”按钮,重新进行语音练习,直到识别效果满意为止。注意普通话一定要力求标准,标点符号也要读出来,否则会造成较大的误差(如果普通话确实不太标准,经过适应性训练,这个电脑秘书也能够逐步适应)。此外,如果点击“声音命令模式”按钮,就可以口述执行命令,比如说“打开”,程序会自动打开“文件→打开”对话框,工具栏上的各种命令电脑接听命令后都会忠实地执行(见图1)。
为何你如此“善解人意”
语音识别是人工智能的有机组成部分,在技术上是个混血儿,微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域的研究成果都对语音识别的发展作了贡献。电脑要听懂我们的语言可比我们学外语难的多,因为电脑没有任何人类语言基础,而且它的“认真”劲儿使得他对不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件都非常敏感,所以,不进行特殊的处理,电脑本身可是不知道变通的。再加上人类语言本身的复杂性,动态性,瞬时性和连续性等特点都对语音识别技术提出了很高要求。
高性能数字信号处理芯片DSP (DigitalSignalProcess)技术的迅速发展,为语音识别的实时实现提供了可能。目前主流的基于统计模式识别理论的的语音识别系统可大致分为三部分:
1.语音特征参数提取:这是最重要的一环。从语音波形中,提取出随时间变化的语音特征序列。提取的特征参数要能有效地代表语音特征,具有很好的区分性;各阶参数之间有良好的独立性;特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。
2.声学模型与模式匹配:特征参数获得了,进行一定的处理后,系统就为每个词条建立一个模型,保存为模板库。语音信号经过相同的通道得到语音特征参数,生成测试模板,我们在对着电脑说话时,将输入的语音特征同声学模型进行匹配与比较,得到最佳的识别结果,就好比我们在学习apple这个单词时,想到真正的红苹果一样。