欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

Siri, are you seriously? 智能语音助理Siri深度评测+扫盲 老少

程序员文章站 2022-04-01 22:25:47
首先,笔者在美国西部时间早上8点10分拿到机器,在美国是第一批拿到机器的。经过一天的摆弄,对Siri有了个大概的了解。我要说,Siri非常非常不够强大!之前种种辟谣说Siri是人工智能,...

首先,笔者在美国西部时间早上8点10分拿到机器,在美国是第一批拿到机器的。经过一天的摆弄,对Siri有了个大概的了解。我要说,Siri非常非常不够强大!之前种种辟谣说Siri是人工智能,并非简单的语音控制。这一点我个人的感觉是,Siri从技术含量来说,虽然没有到达我们期待的AI那样智能,当然也不可能仅仅是个简单的语音控制。Siri经常在不经意间给我一些惊喜,却更多的时候让我失望。


简单来说下我对Siri的认识。

Siri是个Server based语音识别+半智能的这么一个产品。正如苹果官方所说,Siri目前只是Beta,并不成熟,这一点在使用过程中也能够感觉到。比方说你不能完全 按照你的想法问它任何问题。但是明显苹果想要Siri达到一些“糊弄”用户的效果,比方说,如果你对Siri说,Screw you,或者 shut up之类的话,Siri会有几套回应,但是意思都是一样的。实际上Siri能不能真正明白用户的意思,我个人觉得肯定是做不到的。目前Siri使用的技术 从我的认识来看,无非是关键词识别+对比苹果Siri信息数据库,然后找出些应对的答复给你播放出来而已。然而,苹果在这方面做出了不少努力,看得出来, 苹果提前猜到了很多用户也许会问的问题(真的很多),一一设置了对应的回答语,这在很多人第一次使用Siri的时候感觉很震惊,觉得Siri真的很智能, 不过回到刚才说过的一点,无非是传统的关键词+数据库对比而已。

不过我个人猜测,目前人工智能技术远远不够成熟,或许能够通过日积月累的,长期总结 出的,大量的关键词+回应语能够实现我们期待的人工智能?这似乎是一种思路。因为如果你远观Siri的可能性——世界各地的人无时不刻的提问各种各样的问 题,长久之后是否能给Siri带来超大数据库的资源?这种庞大数据库形成之后,Siri也许在我们对人工智能技术的认知角度上真的转变成了一个通过愚笨方 法实现的智能?

因为如果你对比智慧生命的形成过程,也没办法说出个所以然来,你大概只能说,地球上对于孕育智慧生命的所有条件都满足了,然后智慧生命(人类)就产生了。人工智能也并非不可能通过类似的途径实现,就好比Skynet有了自我意识的过程一样让人匪夷所思。

苹果的创新是有目共睹的,那么世界各地的人们通过问各种各样的问题,是否能够最终转变为苹果一个庞大的,近乎免费的资源?答案是肯定的,这也是苹果的高明之处。

不过目前来说,Siri真的很初级,你如果想要很随心所欲的和他对话,很抱歉,做不到。比如,你对它说,I broke up with my girlfriend,他会回答,oh, is that so? 或者 Really? 你也许觉得很震惊,觉得这个回答让你觉得它真的明白你的意思了。你会继续说,yes. Siri会回答,I suppose so. 接下来,基本上无论你说什么,Siri都会老老实实的告诉你,它不能,或者说,它不知道。也许你觉得这没有什么,但是如果你换个话题,你说你今天交了个新 的女朋友,它会说一样的内容,包括Really?或者Is that so?然后接下来就无法进行下去了。简单来说,其实Siri不知道你说的是什么,他不过是用Really之类的敷衍你的对话而已。就好比不会说英语的人不 断的对着老外说 oh yeah really之类的,你们的对话可以进行很久,但是实际上来说,你是不明白对方说了什么的。

有人也许会反驳我,说Siri真的很智能啊,你看它回答你的话都很有人的感觉。关于这一点,我觉得广大群众被欺骗了。下面我总结一些Siri经常回复的内容:

Really?

Is that so?

Not comment.

I don’t know. Frankly, I’ve wondered that myself.

….

发现规律了吗?这些所有的回复内容实际上都没有实质性的东西,无非都是在敷衍。因为基本上每一句话,都可以单独拿出来,应用在任何场合,应用于任何对话。

更有甚者,很多人刻意的想要证明Siri有多么智能,他们就一个问题提问多次,得出例如以下的对话:

Jim: I love you, Siri
我(机主):我爱你,Siri !
Siri: Impossible
Siri :不可能,别调戏我!
Jim: No really, I love you
我:真的,我真的爱你。
Siri: I hope you don’t say that to those other mobile phones, Jim
Siri :我希望你别跟其他的手机这么说,吉姆。(是幽默还是真的会吃醋?)
Jim: No way, I only love you Siri
我:不可能!我爱的只有你!
Siri: You are the wind beneath my wings
Siri :你是我羽翼下拂过的微风⋯⋯(我查了一下,事实上这是一句脍炙人口的歌词⋯⋯这是什么浪漫的修辞手法==)
Jim: That’s nice. I’m glad you know I love you
我:你能这么想实在是太好了~我很高兴你知道我爱你~
Siri: All you need is love. And your iPhone
Siri:吉姆,你的生命所需要的就是爱和 iPhone



这段对话的翻译者在其中中文的部分做了很多润色,使得很多直接看中文的朋友先入为主觉得Siri很可爱。实际上中文的部分我建议大家对照英文来看。

看似很有结构的一个对话,实际上好笑的部分也在这里,因为Siri真正识别的只有三个关键词,那就是Siri,Love和You。而Siri做出应 答的部分,也只是几*成的回答反复随机的播放而已。等到朋友们自己拿到了iPhone 4S之后可以试一试,你重复说Siri I love you之后,Siri也会作出这些应答,不过顺序不一样而已。这部分对话的作者相比只是太过于将自己的情绪和期待施加到Siri上面了,实际上,Siri 只是反复播放了预设的一些回答语,就是这么简单。

从这个角度来说,Siri远远没有达到人工智能的高度。

不过,从另一个角度来说,Siri的扩展性很强,原因很简单,因为Siri是介于服务器端的服务,它并不是在你的手机本地进行计算和分析。也就是 说,Siri是可以学习和进步的,而这个操作权限在苹果那里。比如说笔者本来是个默默无名的网民,我问Siri我是谁,Siri会说出我的名字,但是你的 其他信息它就无法获取了。但是一年后,如果我做出了惊动世界的举动,最终闻名世界,很多人都试着问Siri,这个叫做Akila的家伙是干啥的?那么苹果 很可能就为Akila做出一个词条,放在Siri的数据库里,那么我再问Akila是谁,Siri就能够通过预设的,很可能是刻意做出的一种很拟人的方式 回答你的问题。

Siri的可扩展性和各种可能性是让人真正激动人心的地方,Siri目前是个非常不成熟的产品,但是它存在的意义非常重大也在于此,因为它的可塑性。

这一点我们要求太高就有些强人所难了,毕竟计算机刚刚发明的时候,也不可能像现在的超级计算机一样每一秒计算几千亿次。所以,重点是,Siri开辟了语音人工智能的先河,并且引领苹果的其他竞争对手在这一领域展开竞争,最终便利我们的生活,用户是受益者。

上面这些只是分析一些Siri的技术和未来的扩展性,下面说说目前Siri的实际应用体验。

虽然不能说糟糕,不过要想达到苹果官方广告的效果,作为用户,我们是需要一些时间来适应Siri的,遗憾的是Siri不能适应我们。比如说,有些能 够问,有些不能问,有些问了也没用,因为Siri会敷衍你,或者干脆回答你它不知道,或者直接把你说的话给你放到Google上去。这样是没有意义的。至 于如何知道哪些问题可以问,这就需要一个长期适应的过程了,很遗憾,Siri目前还不能真正便利我们的生活。

而且,麻烦在于,你不仅要适应Siri,还要很大程度上做出相当的妥协。比如广告里很拉风的一个镜头,用户说,回家之后提醒我把礼物拿出来。看似很 方便,但是提前要做好很多工作,比如,创建一个叫做家的地点,然后把详细地址信息提交给Siri。同理,Call my wife之类的也是需要很繁琐的定义每一个联系人和机主的关系,最终才能实现那种看似很方便的操作。最糟糕的是,如果你想说,到了超市之后,请提醒我买些 东西。那么你必须之前就定义了超市为一个新的联系人,并且地点还要提交到这个联系人里。也就是说,每个地点都需要提前为其创建一个联系人,并且附上地点信 息。

这一点直接制约了Siri的实用性,因为我们的生活变数太大,而Siri则坚持一成不变。如果我是大学生,每天两点一线,或者生活非常规律,那么我 花上几个晚上把我经常去的一些地点做联系人信息,那么Siri也许能够便利你的生活,让你hands-free的操作,但是请注意,这是一个妥协并且适应 Siri的过程。

下面我做出一个场景模拟,假设我在土耳其旅行。首先我让Siri找出最近的超市,我通过蓝牙耳机,告诉它。Siri照做。我想让它在我到了超市之后 提醒我买一些果汁,那么我就要把手机掏出来了,把我要去的超市地址复制下来,然后创建新联系人(这个过程Siri是不能代劳的,权限不够,后文会提到)然 后再次打开Siri,告诉它让它设置提醒。操作过程中Siri的语速其实很慢,停顿也很多,还要看当地的网络连接状况好不好决定它回应你的速度。这一套过 程其实很繁琐,远比你在手机上直接写下来to do list要复杂。

下面谈谈一个很现实的问题,那就是网络连接。目前笔者在美国使用的是ATT,这个运营商是美国最大的一家运营商,但是服务质量却很难统一,比如在曼 哈顿等地方,你想通过3G来上传下载资料,很遗憾,往往还不如GSM或者EDGE速度快,因为用的人太多,基站负载太大。反之穷乡僻壤往往能让你测得 7.2Mbps的速度。如果你在人多的地方问Siri一个问题,或者让它设置一个提醒,创建一个日程,嗯,你就等着吧。而且很有可能Siri告诉你网络状 况不好,它无法完成任务。也就是说,你要start over again,按下home键,然后告诉它你要它做什么,它会问你时间,问你地点,然后问你内容,而往往嘈杂的环境,或者其他因素影响了语音输入,那么你还 要频繁的按语音按钮,告诉它更正。这一过程将会非常痛苦。而一旦错了一步,你要听它不是很快的语速,然后告诉它你需要改正。而且,最重要的是,如果你在户 外,这个行为真的非常不拉风,你会像个傻瓜一样对着一个手机说话,并且抓耳挠腮。

语音输入局限在于,外界的影响。之前说到了网络不佳的情况,也提到了嘈杂声音的影响,其实还有诸多其他因素,无时不刻的影响着我们实际的使用体验。这些不细说了。通过使用一天Siri来看,Siri很繁琐,也不够智能。

作为中国人,使用Siri在原本就不够便利的基础上,就变得更加复杂了,因为目前Siri对中国人口音的英语识别不太灵光,对中文也丝毫没有反应,也就是说,如果你的联系人都是中文名字,那么你就不用幻想call 或者text 谁谁谁了,won’t work。

不过实事求是的说,Dictation(语音录入)功能超过了我的预想。笔者在美国生活,经常能够真正将语音录入应用起来,而且真正的便利了笔者的一些生活,发短信,写邮件,完全可以通过语音录入完成。这一功能出乎意料的好用。相比Google的语音录入有过之无不及。

下面说说传说中的hands free。真的能够不用手了吗?怎么可能!Siri要通过按home按键(或者蓝牙耳机的按键)来激活。激活之后呢?有两种情况,第一种,Siri自己判 断下面的对话,如果能进行下去,比如进一步询问时间地点,它会自动开始听你说话,当然,还有一种情况就是,Siri不说话了,也没有激活麦克风来听你说 话。比如,你问它现在几点了,它回答了你,你还想问别的,你这个时候就需要再次按键了。

这一点是个很讨厌的操作体验,但是很遗憾,目前的技术制约了Siri的便利,因为Siri不可能始终开启麦克风随时听候差遣,第一电池不够费的,第二麦克风所能识别的声音环境始终在变化(比如我们从卫生间走到电影院)一些不必要的噪音会引起误操作。

以上的观点我想证明一件事,那就是苹果关于Siri可以做的努力还很多,Siri能够提升的空间还非常巨大。(包括操作体验和Siri的识别技术)苹果肯定会通过不断的系统更新让Siri更加便捷,更加接近我们心中的人工智能。

下面说说Wolfarm Alpha。这是一个类似于Wiki百科的那么一个东西,也就是Siri的数据库。之前说过的数据库对比,说的就是这个数据库。这个数据库融合了数学,逻 辑,常识等内容,基本上Siri能够回答你的问题都是出自于这个数据库。也就是说,通过这个数据库的不管扩充,Siri能够回答你的东西也就越多。

下面说说Siri遗憾的一些地方。首先就是权限。Siri的权限很低级,应该和普通App是一个级别的权限,无法越权。很简单,因为苹果的SDK的 开发文档里面说的很清楚,假设你在开发一个app,想要通过你的app访问其他你手机里app的数据,是做不到的。而我们常常提到的越狱就是提高权限的一 个过程。拿到管理员权限之后,我们才能在我们的手机里安装主题,输入法等,否则,没有越狱的手机是没有权限做这些底层操作的。Siri作为低级权限的所有 者,并不能帮我们打开某个程序,或者删除某个程序,或者删除联系人等操作,这在很大程度上就限制了Siri的无限可能性。我个人也非常肯定的预测,提高 Siri权限/增加Siri功能绝对是各个越狱小组的首要任务之一。有人也许会问,那么Siri为什么能够打开邮件,打开短信?那是因为苹果开放了这些程 序的应用程序接口(API)官方允许某些特定的程序里的数据被其他应用访问,不仅对Siri是开放的,对所有第三方开发者都是开放的,比如我就可以写一段 程序来调用手机的硬件比如相机,麦克风,或者访问手机联系人数据。

所以,Siri的权限不够,导致很多方便的操作无法进行。不过有一点是肯定的,那就是在不远的将来,随着苹果官方对Siri的智能满意程度,肯定会 开通更高的权限。目前Siri权限过低的原因无非就是因为Siri不够成熟,权限过高的话肯定很容易破坏手机系统稳定,或者损伤硬件(比如你无意中激活了 Siri,然后通过一些噪声Siri误以为你要打开相机,结果不知不觉相机一直处于激活状态,最终导致没电关机损伤了电池,或者干脆导致CCD过热直接致 使相机模块损坏)

关于Siri我有一些预测。从技术角度来说,Siri可以运行在任何之前的设备上,哪怕iPhone1代。因为Siri是介于服务器的云端应用技 术,真正用到你手机上的硬件只有麦克风和网络连接。但是苹果的销售策略一向如此,让iPhone 4S独占,只是为了抢占市场。有一点毋庸置疑,就是将来Siri肯定会移植到其它设备,因为它的扩展性和可塑性太强,不应用在其他领域很难发挥它的最大价值。

通过本篇长篇大论,我个人的观点是,Siri是个伟大的尝试,它带给我们的不是便利我们的生活(目前还做不到)但是它带来的是将便携设备产业带向了真正智能化的方向,Siri存在的意义要比它本身能做的事情要大太多了。希望在不远的将来,《光环》中科塔娜那样的

人工智能,或者《全金属狂潮》中AL那样的真正有自主思维的人工智能能够实现,并且改变我们的生活。