你好Siri 语音技术助推互联网演进智能化
手机除了能够打电话、发短信之外还能够做什么?这看似是一个非常容易回答的问题:可以拍照片、听音乐、看视频、浏览网页,甚至充当导航设备……技术的发展让手机早已超越了最初对它的定义。那是否想过手机还能够成为和人们进行交流互动的“机器人”呢?集成了Siri功能的iPhone 4S发布后,让这种设想成为了可能。
与以往借助语音识别发布控制命令的工具不同,Siri更加智能。用户和它进行交流的时候不需要拘泥于严格的语法结构和格式,Siri能够理解人们的自然语言,当用户询问天气情况、设置起床时间、进行日程安排等,Siri都可以给出答案,或者执行相应的操作。当然,用户也可以和Siri闲聊,甚至向Siri表达自己的爱慕之情,而Siri也会一一化解这些难题。
Siri的发布打破了语音技术一直不温不火的局面,很多科技媒体在对2012年的技术发展趋势进行展望时,纷纷将语音技术列为其中之一。语音技术也被誉为继鼠标、触摸屏之后的又一种人机交互方式。目前,语音技术在语音识别(让计算机能够听懂人们说什么)、语音合成(将文本信息转换成语音)方面的应用已经成熟,比如语音拨号,只要说出想要联系的人名,手机就会拨打此人的电话,不过这基于的是手机自身的数据库。而现在,以Siri为代表,结合人工智能、知识库、云计算等技术,对自然语言进行理解将会成为语音技术未来的发展方向。
Siri之所以如此智能,是因为在其背后有着*、Wolfram Alpha、Yelp等身影,分别应用到了知识库技术、知识搜索技术以及问答推荐技术,这些后台技术可以在接受到用户的请求之后,通过云计算,返回最匹配的结果。而作为最基本的语音技术支撑,则是由一家叫做Nuance Communications(纽昂斯通讯)的公司提供。
总部位于美国的纽昂斯是家著名的语音和图像解决方案提供商,同时也是全球最大的专业从事语音识别软件研发及销售的公司。此外,纽昂斯还提供多款图像软件、输入法软件等产品。对于语音技术而言,语音库的丰富程度决定了其语音识别率的高低。据了解,纽昂斯的语音技术目前能够识别约60种语言及方言,语音合成39种语言,几乎占据了全球语音市场2/3的份额。
在国内,也有家致力于语音技术发展的公司——科大讯飞。这家位于合肥的公司在中文语音市场占据主导地位,拥有中文语音技术市场60%以上的市场份额,其产品能够覆盖从大型电信级应用到小型嵌入式应用,目前与科大讯飞进行合作的开发伙伴已经超过了1500家,形成了以其为核心的中文语音产业链。
在2011年举行的第九届广州国际汽车展览会上,上海汽车展示了基于科大讯飞智能语音技术的“语音云驾驶系统iVoka”,这款应用于荣威350的系统可以实现智能的“人车对话”:了解天气情况、进行周边搜索与导航、播放音乐、收发短信……车主甚至还可以在驾车过程中与该系统进行简单的“唠嗑”,解除长时间驾车的疲乏。语音技术在汽车环境中的运用可以极大的“解放”车主的双手,提高了驾车的安全性能。在未来,语音技术或会成为车联网解决方案中必备的要素之一。
在语音技术领域,Google、微软等科技巨头也投入了巨大的精力。Google关注语音技术由来已久,2008年其收购了一家名为GrandCentral的公司,并在次年向用户提供语音服务“Google Voice”,在移动设备上满足用户利用语音指令发送邮件、短信、拨打电话、进行互联网搜索的需求。在Android平台上,目前也有很多第三方的语音识别软件可以使用。但就智能性而言,目前还是落后于Siri。
微软对语音技术的研究则更早,其在2005年就开发出了语音识别软件,使用户能够利用语音命令输入文字,并通过语音控制键盘和鼠标。此外,微软还提供了Microsoft Speech SDK,利用这个软件开发包,用户可以在自己开发的软件里应用语音识别和合成功能,实现“人机对话”。
在我们的手机客户端软件中,语音技术几乎已经成为了大多数应用的必备要素。比如,最新版本的UC浏览器、搜狗输入法就已经集成了语音技术。
近期发布和更新的多款手机地图软件也紧随潮流加入了语音功能。最新版本的高德地图Android和iPhone客户端都新增了语音搜索输入功能;凯立德也新近发布了全新的“随意说”智能声控导航系统,声称用户只需要像日常交流一样对着导航系统说话,就可以控制各种导航功能。
不过,更多的导航软件目前对于语音技术的应用仅是停留在语音合成层面,也就是对规划好的导航路线尽可能用自然的语调进行播报,而不像Siri一样,涉及到对语义的理解。
搜狗地图总经理孔祥来表示,“语音技术在识别方面做得比较成熟。但如果要将语音技术推到用户面前,真正让用户喜爱去用,而不是抱着一种尝鲜的态度,还是需要解决语义理解的问题,让程序足够聪明到理解用户的意图。”这也反映了目前多数软件在应用语音技术时这一现状:只是将平台的语音识别模块嫁接到软件中,并没有解决语音识别后如何将内容“翻译”成机器理解的指令的问题。孔祥来认为,如果这点没有解决,语音技术也仅仅是一个听写引擎。
在导航领域,除了手机地图这样的应用层面在积极探索和语音技术结合的可能性外,在地图数据层面,四维图新与前文提到的纽昂斯达成了合作协议,双方将共同开发导航用的语音地图数据,并将在发布新版地图的同时推出语音导航数据。据了解,四维图新的合作伙伴在未来都能以单独API的方式获得该功能。四维图新总裁孙玉国认为:更加精确的语音功能是导航过程中不可或缺的一项功能和未来导航市场的发展趋势,因此引入先进的语音转换技术已经成为一种必然。
虽然Siri已经发布了,但苹果仍然将其定位在“Beta”阶段,它还需要继续完善。不过,由它开启的“语音互联网”时代却已经到来。这不仅仅限于我们所能看到的手机上的应用,它会应用在更广泛的领域。
前不久,有国外的科技博客就报道称Google正在申请一项专利,该专利描述了基于云计算的系统,能够通过Android手机发出语音命令,以控制机顶盒、智能手机和数字摄录机等设备。
瞧,电视也能用语音进行控制了。