欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

AI的弱点还有很多 真正的方向是让机器做决策?

程序员文章站 2022-04-29 17:15:01
关健[王小川说,AI不是表面上那些酷炫的东西,真正的方向是让机器做决策,具备人的推理能力,但现在看,还没有谁能做到]“科学上每走出一步,你发现前面还有十步不了解,见得越多发现不懂的更多。&...

关健

[王小川说,AI不是表面上那些酷炫的东西,真正的方向是让机器做决策,具备人的推理能力,但现在看,还没有谁能做到]

“科学上每走出一步,你发现前面还有十步不了解,见得越多发现不懂的更多。”搜狗CEO王小川在乌镇向《第一财经日报》记者回忆他早年研究基因学的感受,每过几年的重大发现都推翻了之前的结论。他觉得人工智能也是如此,在谈到无人车等现有AI产品时,他会用“不太靠谱”来评价。

这似乎有点泼冷水的意思。刚刚感慨“人工智能在乌镇大会上火得一塌糊涂”的小米董事长雷军说,中国互联网正在从模式创新进入技术创新阶段。普遍看来,技术创新过去一直是硅谷的代名词。但目前在国内,BAT均在人工智能领域进行布局,连业务相关度并不算高的媒体创始人丁磊也在潜心试水。

在清华读书时就学习人工智能的王小川说,AI不是表面上那些酷炫的东西,真正的方向是让机器做决策,具备人的推理能力,但现在看,还没有谁能做到。“算法结构上的创新发明都是国外的,国内只不过看谁先把这些国外论文翻译过来,最快用到应用中去。”在他眼中,国内外在人工智能上的差距还是很大的。

冷眼看AI

今年3月份,谷歌AlphaGo战胜人类棋手时,王小川给公司放了一天假,庆祝人工智能的历史性突破。放假那天是周一,这件事很快成为互联网圈的谈资,这一天还被戏称为“狗胜节”。背后是这个38岁的“四川神童”对人工智能的执着。

3个月过后,王小川来到英国伦敦拜访DeepMind公司(谷歌母公司Alphabet所拥有的英国AI公司)的工程师,问当时机器输掉第四局棋时究竟发生了什么?“不是程序有BUG,就是深度学习本身有瓶颈。”但对方用了3个月去复盘,仍没有给出解决的答案。这给王小川留下一个深刻的印象,深度学习还是存在瓶颈的,未来AlphaGo会继续出错。

他拿无人车向记者举例,以今天的技术,无人驾驶确实可以在它熟知的、较封闭的环境下应用,但在面对真正开放的环境时,无人驾驶的技术仍不够安全。“这个场景只要它没见过,可能就会犯严重的错误,就像AlphaGo下棋一样会突然发疯。”

互联网大会上,百度的十几辆蓝色无人车在乌镇路面上“秀肌肉”,这是国内无人车第一次在城市道路上测试行驶,出于监管与安全方面的考虑,这条3公里长的道路是事先划批的,但并不限制社会车辆通行。谷歌的无人车已经在路面上跑了五年,但遇到像极端天气、前车突然变道等复杂路况时,仍难以精准地自动调整。规模化商用还很漫长。

就连自家发布的AI产品,王小川也透露出谨慎的态度。当时,他在乌镇主持了一场汇聚海内外人工智能专家的移动互联网论坛,他演讲时,大屏幕上实时显示出演讲内容的中英文对照文字,本来戴着同声传译耳机的斯坦福大学客座教授杰瑞·卡普兰等老外摘下耳机,看屏幕上的文字理解。但不知是否出于紧张,王小川竟然忘了在台上发布这款机器同传产品,而这是全球首次基于神经网络的实时机器翻译技术在大型活动上做展示。

台下,他一边自责自己“逻辑好,记性差”,一边针对这项技术对本报记者分析说,这就像火箭上天,不是每一次发射都能成功。因为实时处理对后台算法模型的要求非常高。这个过程首先要求机器准确识别语音,一旦语音识别成文字这一步出错了,后面的翻译就更是差之千里。在他看来,在技术上第一步的语音识别比翻译更难。

除了搜狗,阿里云、百度、科大讯飞等公司也在公开场合展示过实时语音识别,并均对外声称对中文语音识别的准确率达到了97%左右,但实际也出现过“演砸了”的时候。如果场景并不像会场那样有序,或者演讲者有较重的口音,现在还没有一家公司敢将语音识别技术公开拿出来测试。

不只是输入法的争夺

目前,搜狗、百度、讯飞是第三方手机输入法活跃用户数的前三名,三家在语音识别上的多年布局,正在将手机输入法带进一个比拼人工智能水平的新阶段。事实上,早在苹果发布iPhone4S手机时,就随机发布了人工智能Siri,但从这两年实际使用反馈来看,Siri尚没有达到用户对这个智能机器人的期待。而微软、谷歌、亚马逊三家公司在该领域被看好。

王小川判断,人工智能有两个方向,一是虚拟体验,像戴着VR头盔看视频、玩游戏等与娱乐相关,将视频、音乐、小说等带向虚拟;另一个是机器智能,未来更多的是商业应用。这也是搜狗在人工智能的布局方向,与同为搜索出身的百度一争高下。百度总裁张亚勤在乌镇峰会上说,搜索是使用人工智能时间最长的领域,人工智能的突破需要更先进的算法、超计算能力和海量数据。

王小川拿出自己的手机,向本报记者演示了一款尚未发布的输入法测试版本。在输入框里键入中文,输入法会实时翻译出英文,作为待发布项;或者按住屏幕说一段语音,系统实时反馈一段对应的英文语音。这样就解决了与老外实时聊天的问题。从现场实际测试来看,翻译的准确性很高,对于随口而出的一句话中出现的“牛X”一词,系统可能给出“great”(很棒)的翻译。

在科幻小说《银河系漫游指南》中有一种叫“巴别鱼”(babelfish,取自和人类不同语言相关的巴别塔故事),能在任何语言之间做实时翻译,如果这种鱼可以作为一款人工智能产品存在,相当于每一个人都可以用母语与世界上任何一个地方的人进行交流。

谷歌翻译近日取得的技术突破正朝着这个方向迈进。谷歌在一篇论文中揭示了Zero-Shot翻译,即便机器从未进行过日韩语言间的互译,但它可以凭借之前完成的韩英、日英翻译训练,自动学习并进行日韩语言间的翻译工作,也相当于有望解决谷歌神经机器翻译系统扩展到全语种的难题。但对于巴别鱼的设想,谷歌大脑工程师陈智峰认为,这离实时的语言翻译还有一定距离,未来三到五年可能会有一些突破。

“未来会自己做一款硬件吗?”王小川思考片刻摇摇头,尽管自己做硬件对于用户数据反馈的回流掌控力更强,但他坚持更可能会通过合资形式进入硬件市常搜索就是在帮助人们获取信息,而输入法则在帮助人们进行表达。他专心于怎样通过人工智能让这两种行为变得更简单。