机器视觉知名教授山世光：面对AI，人类的机会在哪里？

程序员文章站 2022-05-07 23:31:40

5月21日，在音乐，科技与艺术相结合的MTA天漠音乐节，投身CV领域创业的中科院计算所山世光教授，从计算机视觉的视角与我们分享了这一轮人工智能热潮的特点，以及他本人投身创业后的一些进展。首先，山世光教...

5月21日，在音乐，科技与艺术相结合的MTA天漠音乐节，投身CV领域创业的中科院计算所山世光教授，从计算机视觉的视角与我们分享了这一轮人工智能热潮的特点，以及他本人投身创业后的一些进展。

首先，山世光教授从事实层面列举了我们应用计算机视觉技术的一些例子，计算机也已经开始能够执行像我们小时候进行的“看图说话”的语言任务，这就是自动图题技术。而最典型的应用可能就是时下诸多公司参与的自动驾驶。此外，近五年来，计算机分类识别物体的错误率基本上都是以每年下降一半的速度在提升。

而计算机视觉技术的进步，得益于3大引擎的推动作用：1.GPU的普及所带来的计算能力的提升；2.大数据的运用；3.深度学习算法的复兴。

针对人工智能的探讨，永远引人入胜的话题还包括人类和智能的比较。对这一类问题，山世光教授也分享了他的认识。

他引用了李开复老师在公开发表过场合的观点：10年后，人工智能会取代世界上很多职业，50%的工作都可能被取代，其中包括翻译、记者、助理，包括保安、司机、销售等。

或许观点上存在“仁者见仁，智者见智”，那么究竟如何评判什么职业会被取代，这就先要解答AI更容易在哪些领域超越人类，又在哪些地方还有待突破。

山世光教授介绍，AI擅长的是通过大量的数据进行归纳学习。而人类学习除了归纳法外，还包括演绎推理，但需要推理的部分，深度学习目前还没有办法解决。通过自我判断对错的增强学习，也是目前机器无法做到的。所以现阶段的AI，比较适合于数据采集、获娶标注比较便利的领域，包括计算机视觉、语音识别等领域。

由此可见，AI容易超越人类的领域有两大类别：第一类是巨量空间的搜索问题或者检索问题；第二类是通过经验习得技能的领域，如自动驾驶、医疗读图。

那么，人类的机会在哪里？山世光教授认为，尽管人类在认知能力没有像机器一样日新月异的进步，但人脑除了数据学习能力外，还有逻辑推理能力。人类能够主动为自己设计算法模型，还能够主动收集数据。通用的AI还没有出现的迹象，当前的AI都是针对特定领域的。

最后，山世光教授分享了他本人投身创业后的一些进展。他在去年创办了中科视拓，为各行各业的用户、客户，提供基于私有数据，生产自己的AI引擎的能力。目前他们已经为华为做了手机里的人脸识别，也与中国移动、中国平安等客户进行了合作。

以下是山世光的演讲原文：

大家好！我是来自中科院计算所的山世光。在大概2、3年前，我们进入了新一轮的人工智能的热潮，我们称之为第三次人工智能的热潮。我下面从计算机视觉，也就是我们希望机器能够像人一样看世界的视角来探索一下人工智能这一轮热潮有什么特点。

首先，简单举几个例子，计算机视觉，也就是说在机器有了摄像头之后，它可以做什么？比如说，最典型的例子，自动驾驶，或者是汽车辅助驾驶里，特别是以特斯拉为代表的自动驾驶的，或者是辅助驾驶的，已经可以实现对道路上的汽车、行人、车道线等这样一些物体的检测、识别。同时，利用检测到的车、人，能够帮助我们进行驾驶。

例子二：从计算机视觉做算法的角度来讲，在过去3、4年时间里，我们可以明确地看到，从2012年到2015年，我们让计算机正确的分类它所看到的物体是什么这样一个问题上，错误率基本上都是以每年下降一半的速度在提升。

例子三：自动图题技术

我们可以想象成，给大家一张照片，让机器自动描述，或者写一段话来介绍这张照片里有什么样的内容。比如说有一张照片，机器可以自动生成一句话来描述这是在一个开放的市场上，有很多人在购物（菜市场）。这是类似于我们小时候看图作文的任务，这也是计算机视觉非常重要的任务。

大家在过去1、2年里，每年刷脸的次数也在不断增加。我相信，在未来的时间，我们每年刷脸的次数，在明年也许会增加到10次，未来会是上百次，甚至是更多的场景。我们用这样一个系统来刷你的身份证，来判断你是不是这个身份证合法的持有人。

这样一些计算机视觉技术的进步，有三大引擎在起作用：1、非常强大的计算能力，这一点大家已经看到了，特别是GPU的普及，使得我们可以训练非常复杂的算法。2、大数据。人脸识别系统，谷歌采用了800万人两亿张照片来训练他们深度学习的模型。这一点，地球上任何一个人都不可能在这一辈子见到这么多的人，用来训练自己大脑里的人脸识别算法。我们的系统可以通过刷身份证判断他是否是合法持有人。

从算法角度来讲，就是深度学习的技术。深度学习并不是一个新的发明，而是一个复兴，就像文艺复兴一样，在很大程度上是对过去的历史的复盘。神经网络、深度学习是上世纪80年代末期所流行的多层神经网络进一步的拓展。当它跟大数据、超级计算及联姻之后，它的威力发挥了起来，所以，使得有了今天的技术进步。

在过去2、3年，有很多AI的问题、任务。计算机逐渐超越了我们人类智能。这一点也是历史的必然，其实在很多方面已经发生了。比如说，大家刚才看到的我们刷身份证，去判断是不是你这样一个任务。目前，计算机可以做到在一万人试图冒充你的时候，我们有95%的概率可以被正确识别。

AI在什么领域可以超越人类？人工智能主要依赖的算法是深度学习的方法。深度学习适合的问题是，我称之为叫“数据肥沃”，而且是好数据肥沃。好数据肥沃意味着我们有大量的数据可以进行归纳学习。

我们人类的学习除了归纳学习之外，我们还有一种学习叫演绎推理，或者是演绎学习。比如说看欧几里得几何原本，这是通过推理得出的。目前来说，深度学习适合的只能从数据来学习。它比较适合于数据采集，获娶标注比较便利的领域。比如说现在做计算机视觉、语音识别，或者是有越来越互联网化的领域使得我们收集数据可以更加的便利。但是需要推理的，目前来说，深度学习没有办法解决。

去年发生着另外一个重要的AI事件，就是阿尔法狗战胜了围棋冠军，阿尔法狗里的深度学习起到了80%的学习，其实还有另外一种技术，叫增强学习。它是适合于可以自动判断对错的领域，但是并不适合解决计算机视觉识别的问题。机器是不可以自我判断的，这就很难通过对自己做的对错的数据积累进行增强的学习。如果是完全交给机器，让它自己增强，目前的算法会导致它学偏，可能会走火入魔，学傻了。

最近一段时间，李开复老师在很多场合介绍过，他认为10年后，人工智能会取代世界上很多职业，50%的工作都可能被取代，其中包括翻译、记者、助理，包括保安、司机、销售等。仁者见仁、智者见智，有很多专家也并不认可所有的职业真的这么轻易的就会被我们AI取代，但是确实也有很多的行业，现在越来越多的可能会受到AI的威胁，比如说保安。

这是我们在一个单位里，他们现在用我们的人脸识别技术来做门禁，整个集团有1万多人，他可以通过对每一个来上班的人进行开门、考勤（人脸识别技术）。这个系统也在刚刚运行，我们也相信，当这个系统把所有的员工变成熟人的时候，这肯定会比我们人类的保安要好很多。一个好的保安可以认1、2000人，但是对于上万人的企业来说还是很难的。

什么领域会逐渐被AI超越？一类是巨量空间的搜索问题，再就是检索类的，比如说图像的检索，这对机器来说都是小菜一碟，对我们人类来说就没有那么容易了。再就是经验、技艺依赖的领域，也就是所谓的见多识广，通过经验学习、习得的技能领域，都可能逐渐的被AI取代，比如说人脸识别、物体识别，或者是自动驾驶，这也是一个经验的问题，比如说医疗的读图。

我们人工智能可以结合几百个*的医生，通过对这些对这些片子的学习就可以超过很多有经验的医生。客服的问答很多也是半重复性，或者是完全重复性的。所以，人工智能完全有可能从历史的经验当中来学习这样一些技能。

大家也会问这样一个问题，超越人类智能，是不是必须要知道人的大脑是如何工作的，我们才能够做出来超越人类的能力算法？事实上，我们人类的大脑是如何工作的，目前还是一个非常神秘的事情，这也是非常值得研究的课题。好消息是说，其实我们并不需要去类脑，如果我们只能坚持一个类脑的路线，我们反而不能够超越人。

我们现在的AI可以简单的总结成一个算法，或者是模型，加上数据的方法，这样的方法论使得我们的机器从大量的数据里，比我们人类见的更多的数据里，学到我们人类不能理解的，但是它会优于人类的表示和分类方法。

比如围棋，因为阿尔法狗的出现，我们的围棋专家、围棋选手，自己已经开始突破过去的一些思维框架，向阿尔法狗学习。也下出了在过去认为不太好的棋，但是发现，这样一些棋招反而更好。

所以说，是不是像人？并不是这个算法好或者是不好的标记。比如说人脸识别的系统，现在我们完全不知道机器到底通过这样大量的学习，学出来了什么样的特征，可以做得比别人好。这一点，已经超出了我们人类可以理解的范畴。

人类的机会在哪里？人类的智能，除了算法，我们大脑了有一个算法，有数据的学习之外，我们还有逻辑推理。相比机器，我们的算法和模型是我们自己可以设计的。非常重要的特点是，我们的数据是我们主动收集的，并不是像目前的机器学习算法一样是被动的，你给它什么样的数据，它就学习什么数据。

我们人类在很多时候也有一些非常有趣的特点，比如说我们的视觉智能，有时候我们的错误本身也是我们智能非常重要的一部分。在左边这张图里，大家可以看到的，这个块和这个块的亮度是一样的还是不一样？我相信没有一个人真的可以看出来这两个块的亮度是一样的。如果你觉得这两块的颜色确实一样的话，我相信你的大脑可能出现了问题，需要去看医生。

上面这个块的颜色和这个块的颜色也是一模一样的，但是我们不会有人感知到这样一个正确的结果。事实上，我们可以认为这个世界是我们自己想象出来的。但是，这种想象是目前的机器很难具有的，让机器判断这两个问题，它也可以非常准确的判断出这两个的答案。

我们理性的度量AI的进步，在很多方法我们也需要注意。我们看到了很多的进步，但是都是特定领域的进步，通用的AI还没有出现的迹象。感知能力也是日新月异的，但是我们的认知能力并没有太大的进步。所谓的感知能力就是看的能力、听的能力等。还有一点，我们目前阶段的AI不可以自己学，更不能自己主动的去学。

这意味着当前的AI都是领域、经验、数据依赖的，决定它只能是特定领域的AI。通用的AI军在何方？包括学术界也没有非常准确的答案。

现在必然是一个春秋战国的时代，各个行业的AI应用也会百花齐放，但是大秦统一全国的时刻还远远没有到来，很多行业都需要自己AI引擎的生产能力。

我本人在去年的时候也创立了一家公司，我们称之为中科视拓，我们有一个中西合并的名字，叫C他（音），我们搭建这样一个平台，提供这样的服务，为各行各业的用户、客户，提供基于私有数据，生产自己的AI引擎的能力。我们为华为手机里的人脸识别，包括中国移动、中国平安等一些大的客户提供引擎、赋能的能力。

简单总结一下。在过去几年时间里，感知进步带动了整个AI的热潮，应该说，传统的行业利用AI可以有一个非常好的升级机会，但是通用的AI还需要时日。所以，深度学习在某种意义上来讲，我们认为它需要基础设施化。这也是中科视拓成立的非常重要的目标，希望能够走向AI技术设施化的一条道路，谢谢大家！

上一篇： Oracle角色、权限、用户相关知识

下一篇： “人机大战”第一局柯洁执黑不敌谷歌AlphaGo