欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

文因互联CEO鲍捷:做聊天机器人有哪些坑?

程序员文章站 2022-04-15 19:53:04
本文来自:文因互联(wenyinx3b)作者:鲍捷,文因互联CEO我自己在某厂做了两年语音个人助理,后来自己出来创业,首先就否定了这个方向,或者它的变种(如问答系统、智能音箱、客服机器人、聊天机器人、...

文因互联CEO鲍捷:做聊天机器人有哪些坑?

本文来自:文因互联(wenyinx3b)

作者:鲍捷,文因互联CEO

我自己在某厂做了两年语音个人助理,后来自己出来创业,首先就否定了这个方向,或者它的变种(如问答系统、智能音箱、客服机器人、聊天机器人、陪伴机器人等等,各自有软件和硬件的版本),以下统称为Chatbot。

爬科技树不是一朝一夕

我估计中国过去几年,各种不同名目的对话型“机器人”的公司,从软件到硬件的,数百家是有的,也许有一千家?有一次,在一个会议上遇到一个公司,想做这个事情,想找一个“领军人物”来带,领导十多个人。我想,这个公司可能大大低估了做这个事情的难度:这种“领军人物”在中国可能不超过20个,也许只有10个?十多个人也难以做出一个工业可用的系统。就是有所谓的领军人物,有丰富经验的,想把工程重建,也不是短期可以奏效的。这个东西真的是没有捷径。

2012年随着Siri的发布,有一波中国的copycat,除了几个大厂的,大部分很快就灭了。过去一两年随着深度学习、知识图谱又起来一波。我认为其中的大部分是炒概念,超出现在的技术能达到的能力,两三年内就会群灭。

我觉得这个东西,属于典型的系统集成创新,只适合大厂战略布局用。大厂做这事,并不在乎场景的冷启动。而对创业公司,无论是技术链条长度,还是商业模式启动的困难,都是超出一般公司体量的。现在大家都想从问答、个人助理、目标达成的角度来切入。大企业玩玩可以,对小企业,想颠覆,不能走这条路,技术链太长,商业模式链更长。传统搜索肯定要被别的取代,但不能是直接拼大厂的长处这样。

往大了说,我对这一轮人工智能的几个热点应用——语音个人助手,问答系统,基于视觉的自动驾驶——都持悲观态度。我认为这种“准图灵测试”类产品,都超越了当前的盈利前沿,大规模应用是不现实的。例外是*(特别是军方)和某些大公司不计成本地布局,瞄准十年之后。其他群众吃瓜围观就好。

各大厂推出的度秘、小冰、Cortana、Google Now,还有搜狗、京东、腾讯等等各种产品,技术上都各有惊艳之处。未来怎么样,我也很难现在做出评价。问答系统六个层次:基础搜索、词联想、本体知识库,短程关系、长程关系、基于上下文的*问答,现在大家也基本只做到了短程关系,长程关系以上都要靠各种“人工”。爬科技树,绝非一朝一夕。

科技树是要爬的。导弹这种大家很容易理解,每一种零件,每一种生产工具,每一种生成工具的机器,缺一种都不行。钱学森学到了导弹的一切,回中国建立这个工业也花了三十年。对于问答系统这种软件,大家可能不太容易直观理解,其实也是同样的,做一个管用的之前要攻克的小问题太多了。就是别人把全套解决方案告诉你了,你都不一定能复制出来,因为还得有一整套的工业体系在后面支撑才行。从知识提取,知识存储,知识表达,知识检索,到人机交互、知识库,不知道多少个小零件要逐一打造。所以软件产业也和其他工业一样,要老老实实爬科技树。

Siri的创始人80年代就是Lisp机器的创业者。大家只关注到国防部和Siri那部分渊源(美国*在CALO上投了1.5亿美元。Siri独立后,风投又投了2400万。苹果花了大概1.5-2.5亿美元买Siri。这个买卖真是合算),哪里想到它成立前的二十多年,它的创始人就把知识表达的坑全趟了一遍了。所以世界上没有无缘无故的成功,也没有捷径。

一些坑

机器善于做短程关系的查找(lookup),一层,罕见的情况下可以做两层。长程关系的发现(discovery)是机器做不好的,只能由人来写,最后变成规则机器执行。那些Siri里有趣的回答,都是人写的,和机器智能无关。

问答系统的现在逐渐从基于知识库的,发展到基于检索的,或者是从基于规则的,发展到基于数据的。但QA这事,至少目前,不是说数据足够多就行。特别是,数据再多,其中高质量数据(特别是结构化语义数据)有多少。实战一下就知道,靠统计机器学习来挖掘高质量数据,难度太大了,完全不实用。对问题和答案都需要NLP,其间检索和排序算法都是新的课题,需要多种方法的综合。

各种语音交互加摄像头识别产品,过去以app的形式承载,一直没有抓住用户的痛点,没有进入主流(除了被强推的siri)。所以最近两年,厂商开始试图用物理硬件来跑这些app,套个人形的塑料壳称为“机器人”。应用也逐渐细分,如儿童、恋爱、健康、娱乐等等。这些都是有益的尝试,但是还是忽悠居多。

特别是最近的一些“智能”玩具机器人(儿童机器人、陪伴机器人),基本看不懂。我买了个1000块的某某儿童对话机器人来玩,头5分钟大家都很兴奋,然后就没有然后了。关键连开关都没有,又蠢又停不下来。然后给我们COO拿回家给4岁的儿子玩,基本没法用,错得驴唇不对马嘴。强烈怀疑儿童陪伴、听歌、故事机器人现阶段实用了。后来又玩了几个市面上能买到的问答系统硬件。得到的结论是为时尚早,问答系统难以实用。

从外观来征服用户的,也是一条路。工业设计、硅胶科技的方法都有……看起来好看其实蛮重要的,有利于user acquisition。当然user retention就不够了,那还是要真本事。

在我看来,聊天机器人、个人助手这些东西的场景绝不是智能对话,不是智能对话,不是智能对话(重要的事情说三遍)。聊天机器人往问答系统的方向做本身就错了。问答系统实用化根本不可能。聊天机器人的定位应该是自动化,就酱。

我想,做语义技术的应用第一重要的是盈利,而不是扩大市场份额。要垄断一个小市场,竞争对手还不够强大,市场小到巨头们无利可图。语义搜索,一定要走K策略,深挖领域知识,而不是推出一个大而全,大而无用的知识库、问答系统、个人助手、搜索引擎blah blah。历史上那些走R策略的语义搜索都活不长。一些垂直的客服系统可能是有用的。我没做过那样的系统,所以也不知道其中的坑在哪里。

不仅技术上有无数的坑,要在工业界搞好一个问答的团队,那是真心不容易! 就是在IBM, 说服上层领导就花了好几年。而且摊子一大,各种山头光内耗就能搞死。另外,问答系统是最接近图灵测试的,如何巧妙地应对来自上面的各种不切实际的灵感,是多考验负责人的情商和智商埃

SIRI的一些回顾

因为工作的关系,从2010年开始就在关注Siri。2014年的时候把过去几年关于Siri的微博汇总了一下,大概有一百条,全文见《Siri有关的微博》。两个短篇见《语义网的公司(6)Siri》《SIRI的贡献和价值》。也请参考以前为@好东西传送门 做的《关于问答系统博文的目录贴》。Apple的Siri专利,长,但是对于理解语义网技术如何在终端用户产品中运用,很值得一读。

凡是抄siri而大谈语音的,都是还没入门的(2013)。

Siri之类的系统,核心是模板系统和结构化数据库(as of 2012)。自然语言处理都是辅助的,真正提高F1分数的还是规则,模板这些“低级”技术。数据的质量和覆盖率也极其重要。现在看语音界面超前了,因为语音极大提高了人们对智能的期望。而且语音对环境和口音要求太高。光口音这一点不知赶走多少用户。

Siri之父Adam Cheyer和Steve Jobs在语音界面这一点上曾经有分歧。关于Siri的早期(还没有被Apple收购之前)的一些设计理念,参Adam Cheyer早年在Ontolog 上的两个谈话:Ontology Management in CALO, a Cognitive Assistant that Learns and Organizes ,和 Siri: An Ontology-driven Application for the Masses。后来的分歧,见【Siri之父Adam Cheyer:为你讲述Siri的前世今生】,里面说,Adam回忆起早期的Siri的时候,也说,“最开始的时候,Siri是没有声音的,只会以文本形式推送答案,这样结果是视觉化的,也更方便人们浏览。使用语音是Steve Jobs的提议,尽管我反对但是他一直坚持”。Cheyer最后只好走人,去创立了Viv,2016年被三星收购——虽然Viv也被标签为“AI语音助手”。

我认为当初Cheyer是对的,Jobs是错的。语音极大提高了用户的期望,极大提高了系统的误差。当年Adam Cheyer等对Siri的定位还是对的,就是个数据集成工具。被苹果买后Jobs强行要改成语音助手,Cheyer只好出走。现在可以看清楚,Jobs的定位违反技术规律。和当年的爱疯天线门一样,是Jobs以他天才的现实扭曲力场(Reality Distortion Field),试图扭曲技术规律的行为。遗憾的是,电磁波定律无法被扭曲,人工智能的的规律也无法被扭曲。

2012年还在研究语音助手的时候,曾拿Siri来反向工程,问各种结构的句子,反推她的模板系统到底是什么样子。结果发现她有些系统性的不能回答的结构,显然是没有对应的模板。最有意思的有人发现问“叫我老婆回家吃饭”,Siri回答“从现在开始叫你‘老婆回家吃饭’”。

(后来拿这套方法分析了其他一些知名的语音助手,结果也很有趣)

当然后来Siri也在演进。2013年iOS7上的siri,就有两点新东西。一是和Bing集成。很可能看中了satori知识图谱。短期内借助外力开发智能问答引擎,很合理。二是在宣传中突出语音对设备的控制和简单的检索,而非问答式的个人助手。Siri老团队的核心当时都已经走了。

近年的事情我就不清楚了。

时机问题和定位问题

The key is timing and positioning

迟早有一天,各种聊天机器人会以软件和硬件的形式进入我们的生活。但是重要的是路径设计,而非预期的愿景;市场的一步步的相对优势的争取,而非平台优势的争龋

True Knowledge(产品后来改名Evi)曾经是一家非常优秀的公司,它的知识库是可以和Google Knowledge Graph媲美的好东西。他家的自然语言理解模板也是值钱的。它可以说是起了大早,赶了个晚集的典型。2005年就开始搞知识图谱,问答系统也做到了世界领先,但是就是一直没搞好商业化,最后以地板价(2600万美元)卖给了Amazon。这个公司不懂得包装自己,好好弄弄说值10亿美元也是没有问题的。本来它可以更开放,以更积极的态度和上下游企业合作。它并没有必要成为Siri的直接竞争对手。它应该更快地进入美国本地服务市场——现在的几个竞争对手本来都比它拥有技术晚。可惜它被执行得更象一个研究项目而不是关心市常现在Amazon的Echo音箱能做好,就有True Knowledge十几年的积累在里面。

我认为,早在2012年,直接做语音助手的黄金期已过,还没推出产品的公司就应该转进了。其实各种垂直领域都不错,用户体验会更好。语音不语音不是核心问题,Siri能做好的最后必然是拥有数据的公司。制造设备的公司会有幻觉,以为自己有用户数据,其实此数据非彼数据。自然语言理解虽然是语义搜索的重要辅助工具,但是当前阶段还不应是Value Proposition或者Key Technology。浅而高质量的数据关系才是。过于复杂的理解技术,不管是查询问题理解还是语义关系提取,现在都不足以大规模工业化。从这个角度,我认为Siri或者其他类似的产品,针对主流市场是危险的。

Tom Gruber(Siri CTO,我们语义网界的老前辈)曾说: the killer app for semantic technology is your life (online) 。这句话有好几层意思,背后代表着一整套哲学、方法论和技术路线。越实践,越觉得机会无穷。他也提出了intelligence at interface的一套理论,见他在SemTech08上的演讲,很有意思。但是我依然觉得 Siri 在timing上稍微早了一点。结构化数据的丰富程度还不足以支持 Siri 的大规模使用。模版系统的产生方式还不够规模化。基础NLP的精度还有待提高。类似产品不宜立即投放大众市场,应该再等几年的。

2012年,对Siri这类产品,舆论界曾有很高的预期。典型如【在血刃Google的路上,Siri会先被苹果给玩死么?】这个文章的作者低估了Siri作为任务引擎的困难程度。他也应该深入想一想,为什么原来的 Siri Assistant 比后来集成的Siri强大但是太慢?为什么集成Siri需要两年?这背后的结构化数据,服务集成,语义推理,语义理解,常识知识,要涵盖日常生活的方方面面,甚至不是苹果一家公司两三年能搞定的。

Siri的CEO Dag Kittlaus有一篇文章Siri Is Only The Beginning,看起来很像是科学美国人上2001年的那篇语义网奠基文章 The Semantic Web。 在十几年里我们低估了语义网的实现难度,当年对Siri的兴奋也许同样低估了问题的复杂性?在2012年我估计,这一天会到来,但恐怕不是5年内。现在到了2017年,可以认为当初的保守估计是合理的。或如文章里说,“when our kids are our age”,20-30年吧。

未来在哪里?

我不知道。我离开这个领域前沿也有三年了,所以知识也是落后的,很多黑科技可能我是不知道的。

(我唯一可以确定的,就是这个黑科技不是深度学习,肯定不是。)

大量的试错总是好的。现在市场上既然有数百个尝试者,最后总会有一些走出来的,其他的至少也为这个市场锻炼了人才。

作为创业团队,最好先做整个技术链条里一个组件的工作,不要试图上来整一个问答系统的全周期。即使是对一个垂直领域,这都是困难的事情。根据不同的团队构成,可以从数据库建造开始,或者可视化开始,或者NLP API,甚至人工的咨询服务。总之,整个大链条十几个大环节,先切一个,建立稳固的根据地,再循序渐进。

未必要在语音这条线上吊死。视觉的并行性和(sort of)可随机存取性是最宝贵的注意力资源。语音在并行性上有先天不足。纯文本也是。长远看,个人助理必然要更多使用视觉元素。狗尾草(Gowild)走AR(增强现实)路线,我觉得很有意思,这条路未来大有前景。

搜索引擎势必要智能化,势必要更多利用结构化数据(也就是知识图谱)。这有两个大方向,一是变成问答系统,依赖自然语言处理走硬AI,二是变成探索引擎,依赖人机交互。我以为第一条路是难以走通的,试图模拟人的智能,技术链条太长短期内不可能解决实际问题。第二条路才是现阶段可行的方法,交互式展示半结构化数据,利用人的智能弥补机器的不足。

也不能迷信垂直领域,比如金融。我不但不看好通用域问答系统,也不看好大部分的垂直领域问答系统,因为人的愚蠢是不分领域的。除非该垂直领域是小众的。具体的以后另专文说吧,这里篇幅太短说不清楚。

不过AI没有禁区,什么意外都有的。我也希望自己说的这些都被打脸。

文因互联简介:

文因互联致力于用人工智能解决金融数据分析问题。创始团队来自MIT、RPI、Wright State、Marvell等知名大学和公司。技术团队核心人员深耕人工智能十余年,是知识图谱领域领军人物;金融团队核心人员来自海外对冲基金、BCG和麦肯锡,具备丰富的投资研究经验。