对话微软黄学东:语音交互的技术前景到底如何?
本期讲述人物为IEEE/ACM双科院士、微软公司语音识别领域的领军人物黄学东博士,他如何看待语音交互技术的发展?又如何诠释微软在人工智能时代的技术路线?听听他怎么说!
作者 | 小羿
在微软众多的技术大咖中,黄学东是最有激情的一位。
有人说,他在用技术改变世界。
作为IEEE/ACM双科院士、语音识别领域的技术大咖,2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。今年2月,黄学东当选微软全球技术院士,这代表着微软技术人员的最高荣誉,也进一步奠定了他在微软的技术领袖地位。
作为语音领域的权威专家,黄学东深信“对话即平台”,“语音交互的发展是一个自然的过程,这是因为语音交互是一个无需触碰设备即可完成的体验,它可以让人摆脱设备的枷锁。”黄学东说到。
黄学东同时表示,高计算量、噪音问题、理解力三个问题,限制了语音交互在实际应用场景中的效果。虽然如此,但是语音交互毕竟已经可以落地并产生了商业化应用,“机器听懂人话”这个目标已经基本实现。
加入微软24年,黄学东目前领导着微软在美国、中国、德国、埃及、以色列的团队研发,包含语音识别及合成,微软企业人工智能客服对话解决方案、cris.ai以及luis.ai等认知服务、CNTK开源深度学习工具等人工智能产品和技术。
在黄学东看来,语义理解是语音交互中最难攻克的问题之一。他指出,这是因为语音理解方面的标记非常少,而且也没有公认的标准,所以要通过非监督式学习来攻克这个困难,但是非监督式学习目前还在探索阶段,亟待突破。这也导致了机器无法学习知识,也没有理解能力,陷入了“鸡和蛋”的问题中。
“认知方面的突破,现在还不知道猴年马月。”黄学东坦言。
对人工智能今年落地发展,黄学东称非常期待能够看到在金融、医疗、保险、招聘等领域的垂直深度应用。
而微软在人工智能的布局上,用黄学东的话来说,我们的人工智能是为了帮助人们做到更好,而不是与人竞争。在技术上,微软有与谷歌TensorFlow想匹敌的人工智能开源开发工具CNTK,以及提供全部人工智能技术的Azure云。在业务上,微软现在有三款聊天机器人,主打情感计算的小冰、主打商务助理的小娜,还有在垂直领域的深度应用智能客服。另外,在神经网络翻译领域,黄学东称Microsoft Translator已经超过Google Translate。
对于亚马逊Echo的火热,黄学东称微软有更大的战略。“我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方如果想要用微软的人工智能技术,已经可以通过Bot Framework、Azure IoT等来做。”
根据黄学东的解释,Azure云可以实现更多的事情,像语音识别、语言理解、机器翻译、语音合成,远远超出亚马逊Alex。
可以说,Azure云承载了微软布局人工智能的最大野心。不过,业内很多人并不知道微软提供了如此强大的功能。
“微软在人工智能时代一定能够王者归来。”黄学东自信地表示。
以下根据黄学东问答实录整理,媒体智能(公众号Smartman163)做了不改动原意的删减:
机器能听懂人话,但价格、噪音、理解力限制了实际效果
媒体智能:
您是语音识别方面的顶尖研究者,由于人工智能的应用,语音识别的准确度不断提高,但是我看到在一些实际的应用场景中,比如说客服,我们在打电话的时候,还是会有受到环境的一些影响,实际的效果并没有那么好。所以我想请教您,语音识别往下发展的时候,如何克服环境噪音,在具体的会话语境中提升准确率?
黄学东:
人工智能领域基本包括了两大块,一块是感知,包括语音识别、图像识别等;另外一块是认知,包括自然语言理解、推理、知识表达等。人工智能在过去几年来看,因为深度学习的进步,在感知这个领域突飞猛进是非常令人振奋的,首先是微软研究院两年前第一次在图像有重大突破,基本上改写了我们对计算机视觉能做事情的认知。
去年,微软在语音识别再一次突破,达到人的水平,这个实际上是会话语音。电话会话语音其实有很传统的公开的数据,这是美国*在90年代中期就开始进行这样的研究,当时错误率高达80%以上,通过20多年的努力,因为深度学习的进步,微软是第一次在这个数据集上,达到和人一样的水平,甚至超过人的水平,所以这是非常了不起,振奋人心的历史性的进步。
但是这个是在电话,不是远场的情况下做的。在实际应用中有几点问题,第一个是计算成本,微软达到这个水平的时候,计算量要求比较高,要求十个神经网络同时在工作。但是通常我们上线的产品,只有一个(神经网络)在工作,所以我们现在正在使用的技术并不是微软能达到人的水准的技术,因为计算需求太高。不过往前看,随着计算会越来越快,越来越先进,这个问题早晚会解决。第二,在噪音比较大的环境下,人比较鲁棒,计算机还没有达到人的鲁棒性水平,因为这个系统基本上还是在打电话。第三,是人的理解还是非常强大的,错两个字没关系,意思能懂。计算机尽管在识别方面,每个字超过了人的水平,但是领会意思还差得很远,这就是人工智能认知水平和人的水平的差别。这不是五年、十年的差别,短期内很难解决。这也是人工智能语音识别方面,很大的一个现状,理解还有距离,远场和噪音环境还有距离。
尽管有这几点问题,但是我们的进步也很大,所以它离实用化基本上已经不是问题了,所以今年年初,《经济学人》、《封面》杂志等都在讲机器终于能听懂人的讲话了。20多年前,我们当时的口号是让语音识别走向主流,到今天机器可以听懂人讲话,可以说我们这个目标已经实现了。
媒体智能:
您的意思是在具体应用上还有一些困难,但是基本上技术已经达到了这个水平?
黄学东:
具体应用主要是理解的问题,因为不同的场景需要有很多相关知识,从知识应用到理解,这是最大的距离。而用语音识别出每个字不是主要的挑战,但是要做到在噪音或远场的环境下识别,这个挑战还是蛮大的。语音、手势、计算机视觉有非常强大的功能,你看过去几十年计算的进步,从大型计算机到PC,再到手机,人一定要去触碰到这个设备,才能达到计算的目的。语音和计算机视觉,也就是麦克风和相机,两者合起来就可以让人解放到不需要触碰设备,这是一个很大的飞跃。你看亚马逊的Echo现在做的那么火,就是因为你可以随时随地交互,甚至是远场控制,获得你想要的信息。
今后如果计算机视觉和听觉合起来,通过手势演进和云的交互,这些相结合,你可以不让人受到设备的枷锁,砍掉这个枷锁,计算的进步是下一次新的飞跃。而且这个飞跃,背后我们有人工智能的强力支持,所以计算的未来会越来越美好。
媒体智能:
还有一个问题,之前媒体智能采访洪小文博士,他提到一个“鸡尾酒会效应”,就是人在和一群人聊天的时候,我想听到某一个人说的话,我就能自动过滤到其他人。如果让语音识别技术去解决的话,您觉得是理解的问题还是噪音的问题?
黄学东:
这是一个麦克风阵列的问题,麦克风阵列如果能做的很好,可以识别到某一个方向,除非两个人在同一个位置讲话,你也可以通过blind source这样的核心技术来分解,这个问题我觉得是都可以解的。
语义理解要靠非监督式学习,知识和理解是最难的“鸡和蛋”的问题
媒体智能:
刚才您说到理解是最大的挑战,目前在自然语言处理和认知这块,您觉得最大的困难是什么,能不能结合现在微软的一些研究,提出一些建议?
黄学东:
机器学习是人工智能过去几年进步最大的动力,尤其是深度学习,但深度学习要求的数据量也很高,而且需要最好是有标记的数据。我们讲的监督式学习,不管是机器翻译、语音识别,还是图像识别,因为有很好的标记,所以这个问题是很好定义的,比较容易实现。而语义理解这方面标记的数据非常少,目前这个标记本身也没有一个公认的标准,所以要通过非监督式学习,来理解这个语言,目前非监督式学习还在探索阶段,这是最主要的问题之一。
第二个问题,人在理解文本的时候需要知识,你没有知识,看了一个东西还是似懂非懂。然后,人获取知识,是需要有理解的能力,这两者就是一个鸡和蛋的问题,错综复杂。现在机器没有知识,所以它对理解语言有障碍,然后又因为没有阅读的能力,所以不能获取知识。
第三个问题,现在深度学习,连续的信号比较强大。语言这个东西,每个字是一个人造的形态,要对字准确处理,除非机器翻译这样相对定义得比较好的东西,给映射到到连续空间去。对理解首先它是没有非常定义好的标准,第二理解需要知识,知识需要理解,它是互相依赖的。因为那么复杂的关系,所以认知方面的突破,现在还不知道猴年马月。
这方面没有突破口,而且我也不知道什么时候有突破口。
媒体智能:
现在我看很多人在做知识图谱这个方面,是希望把这个,通过知识图谱的形式,去推动语音语意理解这个方面的研究。
黄学东:
这个在20世纪70年代就很多人做,在人工智能的第一个冬天之前,大家都做知识图谱,但是没有结果,这是一个非常难的问题。
微软有三个聊天机器人:除了小冰、小娜,还有不为人知的智能客服
媒体智能:
另外一个,情感计算,现在大家也都在说这个情感计算,小冰也在做情感计算,也算是第一个做EQ这种方面的东西,这个方面也需要理解你们是怎么做的?
黄学东:
微软在这个方面做了很多开创性的工作。这个情感,我觉得是比认知更高的一个形式,当然你可以说是感知、认知到情感计算,从人的交流的角度讲,这也是最高阶的阶段,所以这个挑战非常大,情感计算要做的好,一定要有认知的能力。你没有认知的能力,那怎么能情感的沟通呢。所以我们现在可以说,人工智能在感知是有很大的突破,达到人的水平不是问题。认知有很大的挑战,我也不知道什么时候能突破。那个情感挑战更大。但是更大的问题是我们要不要去做,因为难,我们才要去做。
情感计算最好的代表是我们的小冰,从语音识别到图像识别,微软都达到人的水平。我觉得从知识图谱到Bing搜索,实际上是一个认知的很好的代表。还有我们在微软客服方面,现在也有一个聊天机器人。现在微软有三个聊天机器人,一个是小冰,这个是情感计算的代表;一个是小娜,这个是通用的商务应用的代表;另外一个是智能客服,这个是特定性的对商务客服提供了深度且强有力的会话知识,这是一个商务AI的最好代表,这三个都是微软在人工智能方面的一些探索。
智能客服对知识的深度要求很高,它是很垂直的。所以我们在垂直领域,也用了深度学习、增强学习的方法,来制造客服聊天机器人。
Azure云集成了所有的AI能力,不会局限在单一的助手上
媒体智能:
您刚才提到了Alexa,亚马逊将这个语音助手开放给第三方使用,在今年的CES上十分火热。其实小冰完全有这样一个能力,集成在第三方的服务、应用、硬件产品上,为什么小冰和小娜没有这样做?
黄学东:
我们是在用另一种方式做这件事情。事实上,我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方如果想要用微软的人工智能技术,已经可以通过Bot Framework、Azure IoT等来做。现在大家并不一定知道微软提供了这么强大的功能,我们并不是限制在一定要做小娜这件事情上,Azure云可以实现更多的事情,像语音识别、语言理解、机器翻译、语音合成,这些都在Azure这个云上可以实现。
Alexa确实做得不错,它的Speaker和远场做得非常好,但是它的局限性是只有语音式的对话。小冰和小娜在Windows上面已经有Alexa所有的功能,比如我现在把我的PC打开,我可以说“Hi,Cortana”。微软基于PC为中心,已经服务了很多用户。小娜是一个助手,它跟Office的整合,可以随叫随到;它和Bing整合也非常紧密,有很多问题通过Bing搜索就能得到回答。我认为把小娜在PC的前端, 未来PC可能也会Always on(实时在线),也能通过“Hi, Cortana”来唤醒。
现在PC上做,使用场景和使用率都不能算主流,主要有几个问题,一个是PC的麦克风阵列不是主流,所以它对远场的功能比较弱;二是PC不能通过“Hi,Cortana”来唤醒,你要用还得先打开。不过这些事情都是可以解决的,我对PC为中心的小娜还是非常看好的。
媒体智能:
现在中国很多人工智能企业开始做集成语音芯片,智能音箱通过集成Speach、麦克风阵列的芯片,达到进入智能家居的目的,您怎么看,这是未来的一个趋势吗?
黄学东:
我觉得集成麦克风阵列的功能到芯片, 对于语音的入口是非常有意义的。但是强大的语音识别,还是要通过云才能达到,如果是某一个特定小环境的声控,这个不是问题。所以具体要看应用场景是什么,今后终端和云的紧密的配合,一定是大方向。
微软PK谷歌:CNTK PK TensorFlow,Microsoft Translator PK Google Translate
媒体智能:
您之前在很多场合提过,现在微软的人工智能架构,包括云、应用、服务等,都用到了您开发多年的工具CNTK,想请教您,CNTK这个开源工具在微软的AI产品里是怎样一个角色?
黄学东:
CNTK是起了一个非常重要的幕后英雄的角色。微软不管是语音识别,还是计算机视觉,还是智能客服,深度学习的工具都是基于CNTK的,微软内部有一个很大规模的集群的GPU学习平台,超过80%以上的内部大规模的深度学习都是基于CNTK去做的。
CNTK是微软内部的一个深度学习工具,TensorFlow是谷歌内部一个深度学习工具,两者最大区别就是CNTK的分布式计算速度比TensorFlow在典型的work load(工作负载)的下面要*到四倍左右。CNTK完全开源,虽然受欢迎程度不及谷歌的TensorFlow,但CNTK有自己的特点和优势。
CNTK完全开源,其实中国有一些公司已经在用。其中有一家创业公司叫做Airdoc,他们把眼底照下来,基于CNTK提供的工具进行技术分析,可以预测糖尿病,这个方案已经落地应用了。
媒体智能:
谷歌和微软近期都升级了各自的神经网络翻译,媒体新闻也在跟国外一些外国媒体去合作尝试做新闻机器翻译,但是我们看到有些问题,比如必须针对不同的领域做不同的优化,比如说财经股票、科技、体育,这些不同的类别需要分别优化。我想问的问题是,您认为跨领域的机器翻译该如何突破?
黄学东:
人工智能需要大量数据,如果你的数据是来自某一个领域,它在这个领域的表现会比较好。微软早就意识到这个问题,如果是一个新的领域,你可以把自己的数据拿上来,我们可以为你量身定制一个语音识别系统,定制版会比通用的系统好很多。微软目前有这样一个服务,叫做cris.ai,属于Azure云上的一部分。cris.ai虽然没有在中国落地,但在北美已经是公开服务。机器翻译和这个问题的解决方式是一样的。另外我的团队还做了一个叫做luis.ai的方案。
像微软的机器翻译,优点是对企业级的应用做得非常好,Microsoft Translator在中英文已经超越Google Translate。微软是有很多先进技术的,只是我们没有把那个故事讲透。目前,微软和谷歌的神经机器翻译都取得了很大的进步,但是大家都知道谷歌,其实微软在中文英文翻译的方面已经超越谷歌,而且Microsoft Translator支持60种语言。
微软在人工智能大潮流下一定会“王者归来”
媒体智能:
之前在PC的时候我们用键盘鼠标交互,在移动互联网的时候用手机触摸交互,在人工智能的时候可能是会话交互,也就是说未来对话式交互会成为主流。如果我们想用对话式的交互替代掉手机触摸成为主流,我们现在还有哪些问题,您觉得多少年以后会实现?
黄学东:
可以说微软在PC时代是领军人物,而移动计算时代安卓、iOS起到了领导作用,下一个风口一定是人工智能,微软在人工智能的积累超过了30年,我觉得微软在人工智能这个新的大潮流下一定会王者归来。因为对话就是平台,微软已经在领导这个潮流,Bot Framework是领先其他大公司的。我们的小冰、小娜和智能客服都是领军角色,这都是基于微软在人工智能里面深厚的积累。
像智能客服这样的大规模的商业应用,马上就可以起来了,微软已经开始做智能客服。微软有Windows,有Office,有Azure,这些都是技术程度非常深刻的一些产品线,产品复杂度和多样性远远超于大部分其他公司。毫不夸张地讲,微软的智能产品客服是最有挑战性的。但是,微软的人工智能是为了帮助人们做到更好,而不是与人竞争。
从深度来讲,微软智能客服已经能帮助我们的客户解决很多的问题,它可以通过几轮对话了解你到底想问什么东西,然后提供具体的解决方案,这是智能对话的标杆性应用。它在微软北美网站上已上线服务,已经可以回答微软产品有关任何问题,这个没有垂直的整合是很难做到的。微软智能客服绝对是这个领域的领导者。从广度来讲,小冰的应用在情感联系方面迎合了很多年轻人,小娜已经整合到Windows10当中。不管是从深度还是广度上来讲,微软都有可以立足的产品。
中美都有很好的AI生态环境,没人能正确预测未来
媒体智能:
您如何看待中美之间的技术的差异?
黄学东:
像微软这样的跨国公司,我们在中国和美国的技术完全是同步的,从微软这个公司来看,中美完全在同一个起跑线,但是中国其他公司做的产品是什么样,我本人也不了解,不好妄议。
我觉得中国人才济济,而且数据量很大,这一点是对人工智能生态系统非常好的一个环境。因为人工智能要发展,第一要有数据,第二要有计算,第三要有算法,在中国这样的生态环境里面,人才、数据、计算都存在,所以这个对AI健康发展是很有意义。
媒体智能:
大家经常谈人工智能第三次浪潮,您觉得这波浪潮如何才能落地,未来还会不会冷却?
黄学东:
感知方面的突破已经让很多应用可以落地,像小娜的应用;语音控制、图形识别上也有很多实际的应用。认知方面,我觉得微软智能客服是一个很好的例子,这个是大规模商业应用,有非常大的经济效应。但是目前它只是在某一个特定领域,要跨领域的认知服务,我觉得我真说不准什么时候有大的突破。而跨领域、跨平台的认知服务,最好的案例,应该是搜索引擎,你不管搜什么东西,都能拿出答案,但是他没有真正理解这个问题。跨平台的强人工智能任务艰巨,大家不要太急躁,这个是一个慢工细活。
这波浪潮会不会冷却,要看我们是怎么对待人工智能的突破?我觉得感知这方面是非常实实在在的,它已经达到人的水平,这本身意义就非常大。认知方面,在某一个特定领域,或者是在很宽的领域,是比较肤浅的理解,它已经给千千万万的用户,带来很多实际的效应。而深度上,比如微软智能客服可以给商业应用带来实实在在的利益。
没有人能正确的预测未来,我们只要踏踏实实做好人工智能应用,这就足够激动人心了。
媒体智能:
您对今年人工智能市场有什么期待?
黄学东:
我觉得像微软人工智能客服这样的案例,在下一个很深的领域,像金融、医疗、保险、招聘等领域的应用是完全有可能的。其实IBM的Watson也在做同样的事情,他们也是在垂直领域做比较深,但是不是很广。