语音识别的难题

程序员文章站 2022-09-17 17:42:39

语音识别这个概念，我们并不陌生，网站优化从孤立词到大词汇量连续语音的识别（LVCSR），再到语音库检索，语音识别...

语音识别这个概念，我们并不陌生，网站优化从孤立词到大词汇量连续语音的识别（LVCSR），再到语音库检索，语音识别技术一直在向前发展，只是语音识别似乎离我们还有些遥远。“今后5年内，互联网搜索将更多地通过语音来完成。”今年的2月23日，比尔-盖茨在美国卡内基。梅隆大学发表演讲说道，这已数不清是他第几次在公开场合提及语音识别了。

　　对于中文而言，语音识别技术的实现较之英语面临着更多的困难。当南方人把“牛奶”念成“留来”的时候，究竟是机器识别错了，还是人错了？微软中国研发集团下属微软亚洲研究院语音识别组组长宋言哥平提出过这样一个问题。而不仅仅是南北口音的偏差，每个人都有独有的发音习惯。这就造成了语音输入很难规范的问题。其次，噪声也是一种不可抗的难题。“这很好理解，机器无法像人那样分辨出人声和噪声。”宋言哥平解释道，“同时，不同场景有不同噪声，训练的情况也不能匹配真实环境，这使语音识别在噪声中比在安静的环境下难得多。”

　　克服这些难题尚需时日，这也是为何中文音频搜索进展缓慢的一个关键原因。如今日本的音频搜索网站已经上线，中国的用户也期待着可以更快享受到这种先进搜索技术带来的更多便捷。

　　告别简单搜索时代

　　在信息疯狂膨胀的年代，对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。北京网站优化如今娱乐化风潮的涌起，使信息的需求早已不是以往单纯的纯文本而已，而是更大规模地扩展到音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音频、视频文件已经不足以满足用户的需求。

　　于是出现了这种通过将音视频内容转换成文字的搜索方式。

　　然而在简单搜索之外，还不仅仅是这种运用语音识别系统完成的搜索服务技术正在流行。当文字搜索已经发展到几乎没有上升空间的时候，微软、Google这些技术巨头也开始瞄准未来的新一代搜索市场。今年的4月份，在北京举行的国际万维网大会上，两位Google的工程师展示了下一代的图片搜索。新的图片搜索不再只是由图片相关的文字来判断图片的内容。Google将使用计算机分析图片中的内容，并关联关键字的排名。实际上，这就相当于图片搜索中PageRank.

　　在早些时候，《互联网周刊》上也报道过这样的消息：新一代图片搜索技术已经可以像人一样，“看”到一幅图片的兴趣中心，判别它是人物肖像照或是风景照、摄于室内还是户外。甚至，在人的协助下，计算机还能够在许多张合影中找寻到同一张人脸。这些听起来不可思议的事情，已经在微软的实验室里变成了现实，甚至有些技术已应用到部分产品当中。

　　搜索技术已经迎来了一个新的时代，网站优化在各种新型搜索服务的帮助下，我们的各种需求都将慢慢得到满足。科技，正在向着更加人性化的一面发展，一切，都在为人类生活得更好而努力着。

上一篇：智能手机将死？扎克伯格把未来押注在AR/VR

下一篇： System.Web.HttpException: 应用程序已预编译，因此不允许使用目录“/App_Code/”。

语音识别的难题

C#中调用SAPI实现语音识别的2种方法

基于语音识别的IVR系统的设计与实现

基于语音识别的信息校核方法

DTWspeech 本文首先介绍了语音识别的研究和发展状况，然后循

认准语音识别的“内核”

基于语音识别的IVR系统的设计与实现