诱人的Siri 开启人机交互的大门
Siri,苹果新发布的手机iPhone 4S的语音助手功能,正在成为大家热议的话题,而我们预言,它极有可能开启个人电脑类产品应用的新篇章,人机交互将真正进入大家的生活。
智慧诱人的Siri带来人机交互热
一场并不那么精彩的发布会,苹果的iPhone 4S发布了。大家对iPhone 4S在硬件端缺乏创新很失望。不过,敏锐的我们发现了Siri这一功能,这个基于语音交互的助手功能将成为iPhone 4S的最大卖点。
事情的发展正如我们预料的那样,现在,Siri语音助手已经成为全球热议的话题,iPhone 4S热卖,而且用户发现Siri能够帮助我们通过语音轻松完成很多事情,比如:阅读并回复短信、介绍餐厅(位置、名称)、询问天气、设置闹钟、查看日程等。
不过大家更着迷于她的神奇:买iPhone 4S后用户都冲着Siri那优美的女声提出各种稀奇古怪的问题来看她的反应。这些问题甚至包括了“你穿的什么衣服”,“生命的意义是什么”,甚至有不少人冲着她嚷嚷“我爱你”。让人惊叹的是,Siri完全理解这些问题,且懂得如何婉转而诙谐地回答,且知道如何在法律范畴内引导大家的行为。针对前面两个问题,她的回答是“你怎么总是要问我这个呢”;“生命:一种原则或力量,被认为是独特动态存在的基础。我想我也算是一种生命”。而对于“我爱你”之类的告白,Siri则会说“我希望你不会对别的手机也这样说”。她甚至能够对连续性的问题给出符合人类逻辑的不同回答。有人连续向Siri“求婚”三次,第一次Siri回答:“听起来很甜蜜,不过我还有什么可以帮你的吗?”第二次回答:“让我们只做朋友,好吗?”第三次Siri干脆摊牌了:“我的用户协议没有包括和你结婚,我很抱歉。”
很显然,Siri是智慧的,智慧得令人惊叹、智慧得诱惑,智慧得令人爱。难怪在iPhone 4S热销缺货的同时,黑客都在致力于将智慧且诱人的Siri移植到其他iOS设备上。视频网站上,关于Siri问答的视频也被疯狂点击。而大量开发类似软件的厂商,也在近期跳出来表示他们的软件也很好……
一场人机交互热正在到来!
Siri现在成了最热门的应用,事实上,它正在引领人机交互的大潮
Siri背后的技术
Siri的神奇和强大,是如何实现的?有人说她的背后是“印度云”,用户在语音提问时,iPhone 4S就偷偷接通了远在印度的CALL CENTER(呼叫中心),那边的印度工程师疯狂地打字回答,iPhone 4S端再转换为语音回给用户——当然,这只是个玩笑。
Siri的背后,其实是众多技术的结合,总体来看是两大类:人工智能和云计算。如果非要综合描述成一个概念,则是“计算技术”,而这一计算技术又是很多类技术整合而成的。下面,我们来对Siri进行一个大概的技术分拆(目的是让大家理解分类的技术,Siri的每个部分不一定就是采用的下文所举例的技术)。
首先,在前端(面向用户)的,是用户交互技术(从表象来看,也就是我们平时所说的人机交互),主要是语音识别及语音合成技术。语音识别技术把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到云计算。而语音合成则是把返回的文字结果重新转化成语音输出,这一步理论上本地就能完成。
其次是后台技术,这才是重角儿。这些技术的目的就是处理用户的请求,并返回最匹配的结果。因为请求类型超多,且千奇百怪,要处理好可不简单。基本的结构可能是分析用户的输入(已转化为文本),根据输入类型,分别采用对应的后台进行处理。这些对应的后台包括:①以Google为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或知识计算技术,百度框计算与之有些类似);③以*为代表的知识库技术(包括其他百科,如电影百科等);④以Yelp(可以理解为国外的大众点评网)为代表的问答以及推荐技术。当然,未来也许还会有更多的后台技术。
例如,当你询问某个酒店在哪里时,Google的网页搜索和地图搜索就会派上用场;当你要询问NVIDIA是什么时,*的信息就会被直接调用;而你要了解附近哪些餐馆各自有什么特色时,谷歌和Yelp就会同时起作用。
总体来说,Siri不是某一种独立的技术,而是将若干现有技术进行了整合。这些技术并非革命性的,但当它们整合后,在用户面前就展现出了神奇的一面。
语音人机交互的技术模型
为什么是手机
如果你比较喜欢研究各种计算技术,以上技术你应该不会陌生。说白了,很多人都或多或少地用过以上提到的技术,只是因为停留在应用层面,没有把它们技术化罢了。无论是语音识别、语音合成,还是各种后台计算技术,其实PC上都有。那么,为什么它在智能手机上一炮而红?
整合,是一个原因,也是很重要的原因。在目前的科技公司中,对技术分类得非常详尽,每个公司都在某一个领域钻研得非常深,但想到要把它们整合起来的公司并不多。Siri做到了,乔布斯看到了,并把它收购了,专为自己所用(再次赞一下已逝去的乔布斯的眼力)。
另外,“给出回应”也是重要原因。其实语音识别并进行相应的动作,这一点很多厂商都在做,也有很多产品。例如桌面Windows系统和Windows Phone系统上就有语音控制和语音搜索功能。但是它缺乏智能的语言反馈,更没有想到要把这种反馈合成为诱人的人声来回应用户——这两点中,语音合成技术不算难,但很多厂商都没想到。
最后,也是最关键的原因:智能手机是随身携带的。它的硬件虽然已经“PC化”,比较强大,但输入依旧是个麻烦事儿,而基于语音的交互恰好是最理想的解决方案。另外,智能手机还有很多PC不具备的特性:例如地理位置定位、联系人列表、人们总是通过它在移动中解决问题。这些,也都为语音交互提供了更多更丰富的功能点。这一切因素的整合,促成了Siri,也促成了她在智能手机上的一炮而红。
不只是手机:从PC中来到PC中去
有一点是不言而喻的,随着Siri的出现,下一波智能手机的应用热潮肯定是人机交互应用了。《会说话的汤姆猫》这类变声软件将迅速沦为小儿科(其实它本来也是小儿科)。会有越来越多的“Siri”涌现。
实际上正如前文所述,目前黑客们已经在忙着将Siri移植到其他iOS系统移动设备上,例如iPad,但目前能够完成移植,Siri却还无法连接服务器(云端),也就是说基本不可用。但我们相信,这种应用一旦出现,就会有大量的开发商蜂拥而至。在Android上、在Windows Phone上,也会涌现类似的应用。事实上我们有理由相信,具备人机交互功能的语音助手将成为未来智能手机能否成功占领市场的关键点之一。
不过,我们认为Siri开启的,不仅仅是手机应用的新篇章,而是整个PC应用的新篇章(其实,智能手机也算是PC——个人电脑的一种形态)。未来,在平板上,在上网本上,在Ultrabook上,在传统笔记本上,在一体机和台式机上,甚至在工作站上,基于语音的人机交互系统将大放异彩。
这样说是有根据的,首先,在微软全新的手机操作系统Windows Phone上,已经有了语音控制。而Windows 8和Windows Phone 8的统一,也会让语音控制更加普及。而且,在PC端长期以老大自居的微软肯定不会坐视苹果借Siri霸占手机市场,肯定会对现有的语音控制进行改良做到人机交互。在未来的Win8和Windows Phone 8上,语音人机交互是完全有可能出现的。
而且,前面说了,Siri整合的技术,实际上是各种现有的,基于PC开发的技术,每个独立的技术都在PC端有独立的应用。Google的搜索大家都异常熟悉了;*、百度百科用过的人也不在少数;大众点评这类网站也是非常热的。语音控制电脑操作也已相当成熟(见注解1),只是由于缺乏足够的吸引力和宣传,用者寥寥罢了。只要做好自然语言的识别和理解,加上云端的自然语言知识搜索系统,以及语音合成回馈技术,这些来自于PC,经整合后在智能手机上大放异彩的技术,完全可以再回到PC中,在性能强大得多的PC上扮演更具诱惑力的个人语音助手,甚至是“商务助手”、“办公助手”、“专业设计助手”等各种角色。我们甚至可以期待数字家电成型后,通过语音助手控制电脑,进一步完成对所有家电的控制。想远点,或许几年后,我会对着电脑说:请帮我关闭家里的电视,另外缴纳上两个月的电费,同时预订下午2点使用会议室,另外在下午5点30分给家里打电话告诉家人我加班不回家吃饭,并在最近的必胜客帮我订一块肉香满溢披萨上门”。我的电脑就会联合手机,完成我所有的安排,并自动询问我披萨送上门的时间,还自动将缴费发票信息提交到我的电脑屏幕上……
一场关于个人电脑应用革命的大门正在被开启!这一切令我们激动!我们无比期待!
Windows上其实也有非常成熟的语音控制系统,不过智能的人机交流是它匮乏的,但未来前景会很惊人
注解1:
目前PC上的语音控制操作已相当成熟,包括中文在内的语音识别也已很不错。Win7自带语音控制(叫作“语音识别”),你只要在稍微安静点的地方经过20分钟左右的“适应训练”,基本上Win7上的绝大部分操作都可以用语音进行控制,包括专业软件操作。
其实很多操控通过语音的确非常快捷,比如平时我们要开启计算器、写字板、记事本等小软件是很麻烦的,而通过语音控制,你只需说出“开启XXX”即可打开对应软件,且可进行语音输入。
关于语音人机交互的热点问题解答
1、Siri是专门给苹果iPhone 4S准备的吗?Android系统上有吗?
Siri本来是App Store上的一个应用,不过前期被乔布斯相中了,买了下来,现在专属于苹果的iPhone 4S。我们相信未来会植入新款iPhone甚至iPad中,但Android系统上……恐怕有点难了。
2、Siri能够听得懂并会说汉语吗?
这小妞目前只会英语、法语和德语,不过苹果公司已经承诺,会在2012年推出支持汉语、日语、韩语、意大利语及西班牙语的Siri。
3、还有哪些操作系统或者说产品上有语音助手这种好玩的东东呢?
你的电脑的Windows上就有,Win7上的“语音识别”就比较好用。另外Windows Phone 7上也有语音控制功能,比如你可以询问手机某个地方怎么走。不过,这些应用都不会给你幽默有趣的语音反馈,说简单点就是:只会照着你说的做,不会智能地和你聊天。
Andorid系统上有两个软件倒是值得关注:Vlingo和Speaktoit。总体来说,Vlingo和PC上的语音识别相差不多,只能算是执行命令的“机器”,而Speaktoit则非常智能,比较类似于Siri,能够和你智能对话,只是没有Siri那么“幽默”。
WP7上的语音控制基本就是“我说你照做”,不过相信微软对Siri不会视而不见的,肯定会进行改进
Android系统上的Speaktoit和Siri有一拼
4、那么智慧的Siri和Speaktoit是不是能回答我的所有问题呢?
她们足以让你感到吃惊了,但并非能够给你所有的问题予你想要的回答。当然,我这么说了也没用,你肯定还是会问她们各种问题的^__^。自己试试看吧。
下一篇: 重新思考人工智能