对话微软黄学东：语音交互的技术前景到底如何？

程序员文章站 2022-04-02 19:57:49

本期讲述人物为IEEE/ACM双科院士、微软公司语音识别领域的领军人物黄学东博士，他如何看待语音交互技术的发展？又如何诠释微软在人工智能时代的技术路线？听听他怎么说！作者 |...

本期讲述人物为IEEE/ACM双科院士、微软公司语音识别领域的领军人物黄学东博士，他如何看待语音交互技术的发展？又如何诠释微软在人工智能时代的技术路线？听听他怎么说！

作者 | 小羿

在微软众多的技术大咖中，黄学东是最有激情的一位。

有人说，他在用技术改变世界。

作为IEEE/ACM双科院士、语音识别领域的技术大咖，2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。今年2月，黄学东当选微软全球技术院士，这代表着微软技术人员的最高荣誉，也进一步奠定了他在微软的技术领袖地位。

作为语音领域的权威专家，黄学东深信“对话即平台”，“语音交互的发展是一个自然的过程，这是因为语音交互是一个无需触碰设备即可完成的体验，它可以让人摆脱设备的枷锁。”黄学东说到。

黄学东同时表示，高计算量、噪音问题、理解力三个问题，限制了语音交互在实际应用场景中的效果。虽然如此，但是语音交互毕竟已经可以落地并产生了商业化应用，“机器听懂人话”这个目标已经基本实现。

加入微软24年，黄学东目前领导着微软在美国、中国、德国、埃及、以色列的团队研发，包含语音识别及合成，微软企业人工智能客服对话解决方案、cris.ai以及luis.ai等认知服务、CNTK开源深度学习工具等人工智能产品和技术。

在黄学东看来，语义理解是语音交互中最难攻克的问题之一。他指出，这是因为语音理解方面的标记非常少，而且也没有公认的标准，所以要通过非监督式学习来攻克这个困难，但是非监督式学习目前还在探索阶段，亟待突破。这也导致了机器无法学习知识，也没有理解能力，陷入了“鸡和蛋”的问题中。

“认知方面的突破，现在还不知道猴年马月。”黄学东坦言。

对人工智能今年落地发展，黄学东称非常期待能够看到在金融、医疗、保险、招聘等领域的垂直深度应用。

而微软在人工智能的布局上，用黄学东的话来说，我们的人工智能是为了帮助人们做到更好，而不是与人竞争。在技术上，微软有与谷歌TensorFlow想匹敌的人工智能开源开发工具CNTK，以及提供全部人工智能技术的Azure云。在业务上，微软现在有三款聊天机器人，主打情感计算的小冰、主打商务助理的小娜，还有在垂直领域的深度应用智能客服。另外，在神经网络翻译领域，黄学东称Microsoft Translator已经超过Google Translate。

对于亚马逊Echo的火热，黄学东称微软有更大的战略。“我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去，Azure云支持IoT、Bot Framework，第三方如果想要用微软的人工智能技术，已经可以通过Bot Framework、Azure IoT等来做。”

根据黄学东的解释，Azure云可以实现更多的事情，像语音识别、语言理解、机器翻译、语音合成，远远超出亚马逊Alex。

可以说，Azure云承载了微软布局人工智能的最大野心。不过，业内很多人并不知道微软提供了如此强大的功能。

“微软在人工智能时代一定能够王者归来。”黄学东自信地表示。

以下根据黄学东问答实录整理，媒体智能（公众号Smartman163）做了不改动原意的删减：

机器能听懂人话，但价格、噪音、理解力限制了实际效果

媒体智能：

您是语音识别方面的顶尖研究者，由于人工智能的应用，语音识别的准确度不断提高，但是我看到在一些实际的应用场景中，比如说客服，我们在打电话的时候，还是会有受到环境的一些影响，实际的效果并没有那么好。所以我想请教您，语音识别往下发展的时候，如何克服环境噪音，在具体的会话语境中提升准确率？

黄学东：

人工智能领域基本包括了两大块，一块是感知，包括语音识别、图像识别等；另外一块是认知，包括自然语言理解、推理、知识表达等。人工智能在过去几年来看，因为深度学习的进步，在感知这个领域突飞猛进是非常令人振奋的，首先是微软研究院两年前第一次在图像有重大突破，基本上改写了我们对计算机视觉能做事情的认知。

去年，微软在语音识别再一次突破，达到人的水平，这个实际上是会话语音。电话会话语音其实有很传统的公开的数据，这是美国*在90年代中期就开始进行这样的研究，当时错误率高达80%以上，通过20多年的努力，因为深度学习的进步，微软是第一次在这个数据集上，达到和人一样的水平，甚至超过人的水平，所以这是非常了不起，振奋人心的历史性的进步。

但是这个是在电话，不是远场的情况下做的。在实际应用中有几点问题，第一个是计算成本，微软达到这个水平的时候，计算量要求比较高，要求十个神经网络同时在工作。但是通常我们上线的产品，只有一个（神经网络）在工作，所以我们现在正在使用的技术并不是微软能达到人的水准的技术，因为计算需求太高。不过往前看，随着计算会越来越快，越来越先进，这个问题早晚会解决。第二，在噪音比较大的环境下，人比较鲁棒，计算机还没有达到人的鲁棒性水平，因为这个系统基本上还是在打电话。第三，是人的理解还是非常强大的，错两个字没关系，意思能懂。计算机尽管在识别方面，每个字超过了人的水平，但是领会意思还差得很远，这就是人工智能认知水平和人的水平的差别。这不是五年、十年的差别，短期内很难解决。这也是人工智能语音识别方面，很大的一个现状，理解还有距离，远场和噪音环境还有距离。

尽管有这几点问题，但是我们的进步也很大，所以它离实用化基本上已经不是问题了，所以今年年初，《经济学人》、《封面》杂志等都在讲机器终于能听懂人的讲话了。20多年前，我们当时的口号是让语音识别走向主流，到今天机器可以听懂人讲话，可以说我们这个目标已经实现了。

媒体智能：

您的意思是在具体应用上还有一些困难，但是基本上技术已经达到了这个水平？

黄学东：

具体应用主要是理解的问题，因为不同的场景需要有很多相关知识，从知识应用到理解，这是最大的距离。而用语音识别出每个字不是主要的挑战，但是要做到在噪音或远场的环境下识别，这个挑战还是蛮大的。语音、手势、计算机视觉有非常强大的功能，你看过去几十年计算的进步，从大型计算机到PC，再到手机，人一定要去触碰到这个设备，才能达到计算的目的。语音和计算机视觉，也就是麦克风和相机，两者合起来就可以让人解放到不需要触碰设备，这是一个很大的飞跃。你看亚马逊的Echo现在做的那么火，就是因为你可以随时随地交互，甚至是远场控制，获得你想要的信息。

今后如果计算机视觉和听觉合起来，通过手势演进和云的交互，这些相结合，你可以不让人受到设备的枷锁，砍掉这个枷锁，计算的进步是下一次新的飞跃。而且这个飞跃，背后我们有人工智能的强力支持，所以计算的未来会越来越美好。

媒体智能：

还有一个问题，之前媒体智能采访洪小文博士，他提到一个“鸡尾酒会效应”，就是人在和一群人聊天的时候，我想听到某一个人说的话，我就能自动过滤到其他人。如果让语音识别技术去解决的话，您觉得是理解的问题还是噪音的问题？

黄学东：

这是一个麦克风阵列的问题，麦克风阵列如果能做的很好，可以识别到某一个方向，除非两个人在同一个位置讲话，你也可以通过blind source这样的核心技术来分解，这个问题我觉得是都可以解的。

语义理解要靠非监督式学习，知识和理解是最难的“鸡和蛋”的问题

媒体智能：

刚才您说到理解是最大的挑战，目前在自然语言处理和认知这块，您觉得最大的困难是什么，能不能结合现在微软的一些研究，提出一些建议？

黄学东：

机器学习是人工智能过去几年进步最大的动力，尤其是深度学习，但深度学习要求的数据量也很高，而且需要最好是有标记的数据。我们讲的监督式学习，不管是机器翻译、语音识别，还是图像识别，因为有很好的标记，所以这个问题是很好定义的，比较容易实现。而语义理解这方面标记的数据非常少，目前这个标记本身也没有一个公认的标准，所以要通过非监督式学习，来理解这个语言，目前非监督式学习还在探索阶段，这是最主要的问题之一。

第二个问题，人在理解文本的时候需要知识，你没有知识，看了一个东西还是似懂非懂。然后，人获取知识，是需要有理解的能力，这两者就是一个鸡和蛋的问题，错综复杂。现在机器没有知识，所以它对理解语言有障碍，然后又因为没有阅读的能力，所以不能获取知识。

第三个问题，现在深度学习，连续的信号比较强大。语言这个东西，每个字是一个人造的形态，要对字准确处理，除非机器翻译这样相对定义得比较好的东西，给映射到到连续空间去。对理解首先它是没有非常定义好的标准，第二理解需要知识，知识需要理解，它是互相依赖的。因为那么复杂的关系，所以认知方面的突破，现在还不知道猴年马月。

这方面没有突破口，而且我也不知道什么时候有突破口。

媒体智能：

现在我看很多人在做知识图谱这个方面，是希望把这个，通过知识图谱的形式，去推动语音语意理解这个方面的研究。

黄学东：

这个在20世纪70年代就很多人做，在人工智能的第一个冬天之前，大家都做知识图谱，但是没有结果，这是一个非常难的问题。

微软有三个聊天机器人：除了小冰、小娜，还有不为人知的智能客服

媒体智能：

另外一个，情感计算，现在大家也都在说这个情感计算，小冰也在做情感计算，也算是第一个做EQ这种方面的东西，这个方面也需要理解你们是怎么做的？

黄学东：

微软在这个方面做了很多开创性的工作。这个情感，我觉得是比认知更高的一个形式，当然你可以说是感知、认知到情感计算，从人的交流的角度讲，这也是最高阶的阶段，所以这个挑战非常大，情感计算要做的好，一定要有认知的能力。你没有认知的能力，那怎么能情感的沟通呢。所以我们现在可以说，人工智能在感知是有很大的突破，达到人的水平不是问题。认知有很大的挑战，我也不知道什么时候能突破。那个情感挑战更大。但是更大的问题是我们要不要去做，因为难，我们才要去做。

情感计算最好的代表是我们的小冰，从语音识别到图像识别，微软都达到人的水平。我觉得从知识图谱到Bing搜索，实际上是一个认知的很好的代表。还有我们在微软客服方面，现在也有一个聊天机器人。现在微软有三个聊天机器人，一个是小冰，这个是情感计算的代表；一个是小娜，这个是通用的商务应用的代表；另外一个是智能客服，这个是特定性的对商务客服提供了深度且强有力的会话知识，这是一个商务AI的最好代表，这三个都是微软在人工智能方面的一些探索。

智能客服对知识的深度要求很高，它是很垂直的。所以我们在垂直领域，也用了深度学习、增强学习的方法，来制造客服聊天机器人。

Azure云集成了所有的AI能力，不会局限在单一的助手上

媒体智能：

您刚才提到了Alexa，亚马逊将这个语音助手开放给第三方使用，在今年的CES上十分火热。其实小冰完全有这样一个能力，集成在第三方的服务、应用、硬件产品上，为什么小冰和小娜没有这样做？

黄学东：

我们是在用另一种方式做这件事情。事实上，我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去，Azure云支持IoT、Bot Framework，第三方如果想要用微软的人工智能技术，已经可以通过Bot Framework、Azure IoT等来做。现在大家并不一定知道微软提供了这么强大的功能，我们并不是限制在一定要做小娜这件事情上，Azure云可以实现更多的事情，像语音识别、语言理解、机器翻译、语音合成，这些都在Azure这个云上可以实现。

Alexa确实做得不错，它的Speaker和远场做得非常好，但是它的局限性是只有语音式的对话。小冰和小娜在Windows上面已经有Alexa所有的功能，比如我现在把我的PC打开，我可以说“Hi，Cortana”。微软基于PC为中心，已经服务了很多用户。小娜是一个助手，它跟Office的整合，可以随叫随到；它和Bing整合也非常紧密，有很多问题通过Bing搜索就能得到回答。我认为把小娜在PC的前端，未来PC可能也会Always on（实时在线），也能通过“Hi， Cortana”来唤醒。

现在PC上做，使用场景和使用率都不能算主流，主要有几个问题，一个是PC的麦克风阵列不是主流，所以它对远场的功能比较弱；二是PC不能通过“Hi，Cortana”来唤醒，你要用还得先打开。不过这些事情都是可以解决的，我对PC为中心的小娜还是非常看好的。

媒体智能：

现在中国很多人工智能企业开始做集成语音芯片，智能音箱通过集成Speach、麦克风阵列的芯片，达到进入智能家居的目的，您怎么看，这是未来的一个趋势吗？

黄学东：

我觉得集成麦克风阵列的功能到芯片，对于语音的入口是非常有意义的。但是强大的语音识别，还是要通过云才能达到，如果是某一个特定小环境的声控，这个不是问题。所以具体要看应用场景是什么，今后终端和云的紧密的配合，一定是大方向。

微软PK谷歌：CNTK PK TensorFlow，Microsoft Translator PK Google Translate

媒体智能：

您之前在很多场合提过，现在微软的人工智能架构，包括云、应用、服务等，都用到了您开发多年的工具CNTK，想请教您，CNTK这个开源工具在微软的AI产品里是怎样一个角色？

黄学东：

CNTK是起了一个非常重要的幕后英雄的角色。微软不管是语音识别，还是计算机视觉，还是智能客服，深度学习的工具都是基于CNTK的，微软内部有一个很大规模的集群的GPU学习平台，超过80%以上的内部大规模的深度学习都是基于CNTK去做的。

CNTK是微软内部的一个深度学习工具，TensorFlow是谷歌内部一个深度学习工具，两者最大区别就是CNTK的分布式计算速度比TensorFlow在典型的work load（工作负载）的下面要*到四倍左右。CNTK完全开源，虽然受欢迎程度不及谷歌的TensorFlow，但CNTK有自己的特点和优势。

CNTK完全开源，其实中国有一些公司已经在用。其中有一家创业公司叫做Airdoc，他们把眼底照下来，基于CNTK提供的工具进行技术分析，可以预测糖尿病，这个方案已经落地应用了。

媒体智能：

谷歌和微软近期都升级了各自的神经网络翻译，媒体新闻也在跟国外一些外国媒体去合作尝试做新闻机器翻译，但是我们看到有些问题，比如必须针对不同的领域做不同的优化，比如说财经股票、科技、体育，这些不同的类别需要分别优化。我想问的问题是，您认为跨领域的机器翻译该如何突破？

黄学东：

人工智能需要大量数据，如果你的数据是来自某一个领域，它在这个领域的表现会比较好。微软早就意识到这个问题，如果是一个新的领域，你可以把自己的数据拿上来，我们可以为你量身定制一个语音识别系统，定制版会比通用的系统好很多。微软目前有这样一个服务，叫做cris.ai，属于Azure云上的一部分。cris.ai虽然没有在中国落地，但在北美已经是公开服务。机器翻译和这个问题的解决方式是一样的。另外我的团队还做了一个叫做luis.ai的方案。

像微软的机器翻译，优点是对企业级的应用做得非常好，Microsoft Translator在中英文已经超越Google Translate。微软是有很多先进技术的，只是我们没有把那个故事讲透。目前，微软和谷歌的神经机器翻译都取得了很大的进步，但是大家都知道谷歌，其实微软在中文英文翻译的方面已经超越谷歌，而且Microsoft Translator支持60种语言。

微软在人工智能大潮流下一定会“王者归来”

媒体智能：

之前在PC的时候我们用键盘鼠标交互，在移动互联网的时候用手机触摸交互，在人工智能的时候可能是会话交互，也就是说未来对话式交互会成为主流。如果我们想用对话式的交互替代掉手机触摸成为主流，我们现在还有哪些问题，您觉得多少年以后会实现？

黄学东：

可以说微软在PC时代是领军人物，而移动计算时代安卓、iOS起到了领导作用，下一个风口一定是人工智能，微软在人工智能的积累超过了30年，我觉得微软在人工智能这个新的大潮流下一定会王者归来。因为对话就是平台，微软已经在领导这个潮流，Bot Framework是领先其他大公司的。我们的小冰、小娜和智能客服都是领军角色，这都是基于微软在人工智能里面深厚的积累。

像智能客服这样的大规模的商业应用，马上就可以起来了，微软已经开始做智能客服。微软有Windows，有Office，有Azure，这些都是技术程度非常深刻的一些产品线，产品复杂度和多样性远远超于大部分其他公司。毫不夸张地讲,微软的智能产品客服是最有挑战性的。但是，微软的人工智能是为了帮助人们做到更好，而不是与人竞争。

从深度来讲，微软智能客服已经能帮助我们的客户解决很多的问题，它可以通过几轮对话了解你到底想问什么东西，然后提供具体的解决方案，这是智能对话的标杆性应用。它在微软北美网站上已上线服务，已经可以回答微软产品有关任何问题，这个没有垂直的整合是很难做到的。微软智能客服绝对是这个领域的领导者。从广度来讲，小冰的应用在情感联系方面迎合了很多年轻人，小娜已经整合到Windows10当中。不管是从深度还是广度上来讲，微软都有可以立足的产品。

中美都有很好的AI生态环境，没人能正确预测未来

媒体智能：

您如何看待中美之间的技术的差异？

黄学东：

像微软这样的跨国公司，我们在中国和美国的技术完全是同步的，从微软这个公司来看，中美完全在同一个起跑线，但是中国其他公司做的产品是什么样，我本人也不了解，不好妄议。

我觉得中国人才济济，而且数据量很大，这一点是对人工智能生态系统非常好的一个环境。因为人工智能要发展，第一要有数据，第二要有计算，第三要有算法，在中国这样的生态环境里面，人才、数据、计算都存在，所以这个对AI健康发展是很有意义。

媒体智能：

大家经常谈人工智能第三次浪潮，您觉得这波浪潮如何才能落地，未来还会不会冷却？

黄学东：

感知方面的突破已经让很多应用可以落地，像小娜的应用；语音控制、图形识别上也有很多实际的应用。认知方面，我觉得微软智能客服是一个很好的例子，这个是大规模商业应用，有非常大的经济效应。但是目前它只是在某一个特定领域，要跨领域的认知服务，我觉得我真说不准什么时候有大的突破。而跨领域、跨平台的认知服务，最好的案例，应该是搜索引擎，你不管搜什么东西，都能拿出答案，但是他没有真正理解这个问题。跨平台的强人工智能任务艰巨，大家不要太急躁，这个是一个慢工细活。

这波浪潮会不会冷却，要看我们是怎么对待人工智能的突破？我觉得感知这方面是非常实实在在的，它已经达到人的水平，这本身意义就非常大。认知方面，在某一个特定领域，或者是在很宽的领域，是比较肤浅的理解，它已经给千千万万的用户，带来很多实际的效应。而深度上，比如微软智能客服可以给商业应用带来实实在在的利益。

没有人能正确的预测未来，我们只要踏踏实实做好人工智能应用，这就足够激动人心了。

媒体智能：

您对今年人工智能市场有什么期待？

黄学东：

我觉得像微软人工智能客服这样的案例，在下一个很深的领域，像金融、医疗、保险、招聘等领域的应用是完全有可能的。其实IBM的Watson也在做同样的事情，他们也是在垂直领域做比较深，但是不是很广。

上一篇：李飞飞与盖茨夫人谈AI:有多样性行业才能健康发展

下一篇：凯文凯利解读AI崇拜：超级人工智能是个神话