思必驰龙梦竹：机器人有自己名字主要为防止关机

程序员文章站 2023-03-16 13:05:09

思必驰CMO龙梦竹在现场分享了在语音技术方面对聊天机器人领域发展的看法。她认为缺乏人机交互的机器人，外观做得再漂亮，也不过是一个玩具。目前在整个机器的人机交互里，语音走在最前面，但发展方向会从单一的交...

思必驰CMO龙梦竹在现场分享了在语音技术方面对聊天机器人领域发展的看法。她认为缺乏人机交互的机器人，外观做得再漂亮，也不过是一个玩具。目前在整个机器的人机交互里，语音走在最前面，但发展方向会从单一的交互模式走向多模态交互，从被动交互走向主动式交互。而现在机器人都有自己的名字，从产品体验上来说，主要是为了防止关机，让机器人保持待机的状态，让它随时响应用户。

以下为龙梦竹现场分享观点整理：

思必驰是一家做智能语音技术的公司，接下来我们将会从语音技术的方面跟大家讲一下我们在聊天机器人这个领域的发展和一些想法。

思必驰龙梦竹：机器人有自己名字主要为防止关机

机器人会议/图来源网络

思必驰是国内唯一一家只针对三个垂直领域做技术服务提供的公司，包括车载、家居和机器人。就目前来说，机器人是去年年底才蓬勃发展起来的新兴产业，目前来说在我们这三个领域的合作方面能看出，目前机器人占比不是最大的，但它是月增速最快的，我们也经过了好多数据公司能看出，目前中国是整个服务型机器人增速最快的国家，在国际上来看，机器人的增速每个月在17%左右，而中国的机器人增速从2010年到2015天，增速保持在57%，已经成为最大的机器人产业国。

国外有很多优秀的产品，但很多是比较偏向于前沿项目或工业机器人的，放眼中国的机器人产业，我们整理了一个“机器人产业链”，思必驰，包括今天在座好多技术型公司，都处于整个技术平台型公司的人机交互技术，是一个机器人从最开始定模型、IT设计到产品规划、功能需求定义之后，人机交互公司是属于最底层的技术服务公司，但它的作用非常重要。

缺乏人机交互的公司，再智能也不过是一个机器玩具，缺乏人机交互意味着什么？听不懂、看不了、理解不了、说不好，最后就是它没办法帮你完成任务，它什么也做不好，所以缺乏人机交互的机器人再智能，外观做得再漂亮，它也不过是一个玩具。

我们讲人机交互，其实人机交互里的技术不仅只有语音，包括脸部识别、手势、声纹、虹膜、指纹等等，为什么我们单单说语音是入口呢？

目前在整个机器的人机交互里，语音走在最前面，但发展方向会从单一的交互模式从最开始的触控一直到现在的语音从单一交互走向多模态交互，从被动交互走向主动式交互。

在机器人领域里有一个特别着名的理论，叫做“恐怖理论”，机器人外型在跟真人最相似的情况下到一定阶段它会让用户觉得恐怖，我们是从外型而言。

单从理论角度来说，其实语音越亲切，它反而会让机器变得越具情感性。

我们先从声音的角度来看发展，第一段市Siri的声音。这也是大家目前对机器人声音最熟悉的一种，其实你细听，它是单词结合的声音，没有情感，一听就知道是机器人，我们有看过一部电影《HER》，里面的男主人公爱上了机器人语声萨曼莎，它能具备多情感交互、非常真人化。在国内，除了Siri这种机械化很强的机器人以外，慢慢的，从讯飞开始，很多公司也在做名人的声音，能听得出来是谁的声音，还原度不错，具有一定的情感性，大概是这个样子。

除了讯飞以外，包括思必驰还有好多友商也都在做人的声音，在机器人领域，Siri的声音、名人的声音显然是不够亲切的，中国的机器人大多是在家庭环境下使用的机器人，主要分为两大类，针对老人和针对儿童市场的。在针对不同市长的情况下，首先要在声音上具有这个产品的需求。

（儿童的声音）很明显，这个声音最符合的场景是针对儿童的儿童型机器人，也就是说，智能语音技术进入到现在，不管是从声音识别到语义理解等各个方面，都要针对机器人这个特殊载体去做相应处理。

当我们谈到聊天机器人中语音交互的时候，我们在跟客户沟通，包括给产品提供技术的时候，我们会更关注哪些方向。

第一个是大家听到的合成音的问题，现在我们的合成音会分成三个方向：一是标准男女声，二是名人的声音，除了刚才大家听到的林志玲的声音，郭德纲的声音大家也比较熟悉。

现在有好多对机器人提出这样的需求，我要做儿童陪伴型机器人，但我希望在父母不在家的时候，机器人能用父母的声音陪伴儿童，过去我们做合成音需要上万小时的训练数据，而现在从技术的角度来说，我们应该已经能够做到只需通过很短时间的训练数据，比如20分钟或半小时，就能做出定制人的声音。当然，因为训练素材的问题，所以它的还原度没有那么高，不会像刚才的童音和名人声音那么真实，但至少能听出这个人的属性。

给大家听一个用我们联合创始人余凯的声音做的声音。

这个声音有20分钟，这个技术在聊天机器人领域可以怎么用，未来我们希望跟机器人客户一起做这么一件事，就是我们的合成音不再限于某个名人或某个可爱的声音，而是定制化，比如产品面向儿童，在你外出的时候可以先合成父母的声音来陪伴儿童，既然儿童机器人定义是在陪伴和家庭，它理应成为家庭的一分子，主人不在的时候应该充当监护的角色，首先是第一个方面，合成音可以这么做。

第二个我们在机器人里遇到的最大障碍就是远场交互的问题，我们所定位的服务型机器人，尤其是在家庭环境的服务型机器人，基本上都会有一个远场交互的问题，我们要跟机器人交互的时候，不一定要必须走过去，这个场景显然不好用，在家庭环境里，人和其他人的距离会在3到5米，所以目前国内各家语音技术会把远场交互这个有效范围定在5米，用5米的交互水平判断远场交互是否好，以及跟远场交互同样重要的是声源定位。

以亚马逊的ECHO为例，它最大的好处是能够360度识音，用户在哪儿说话，ECHO能够判断用户说话的声音和方向，并于用户进行更好的沟通。

这里有一个视频，用了我们麦克风机器人的视频演示。这个视频能明显看出，在语音技术，在机器人产品里远场交互和声源定位的重要性。

第一，它能让你的机器人更智能。

第二，它能让你的机器人和更多服务结合起来，不管是拍照还是更多后端语义上的理解和交互，都需要从技术上去理解远场交互和声源定位的问题。

第三是刚刚很多嘉宾一直在提的场景化的问题，语音技术是很通用的概念，我们在不同场景下的不同产品要根据用户的实际需求去解决好多不同的问题，比如说在家庭下的服务型机器人，首先我们的机器人定位是什么语音而不是功能，而是手段，我们需要通过语音这个手段实现之后更多的功能，因为现在的机器人不再是虚拟的助理，不再局限于一问一答或聊天，而是通过语音交互让机器人帮你做什么，拍照、问问题、订票或者是扫地机器人去扫地，在这种场景下，我们的语音技术有两点要求：一是基于实际场景，用对话让机器人更好理解用户的复杂意图；二是基于任务对话，能够让语音交互具备远场抗噪，进行渐进式沟通。

语音其实很复杂的，尤其是汉语，举个简单的例子，如果“下周二九点许春来到苏州，帮我约他在九寨喝茶”，这是很复杂的语句，人类在沟通时也会遇到问题，第一，这个人叫“许春”还是叫“许春来”？他说九点来到苏州；他是上午九点还是晚上九点；第三，约他在九寨喝茶，九寨是咖啡厅的名字还是风景区的名字？很多时候人类都是通过上下文理解和交互式对话一步步完成的，这也是我们在机器人语义理解上比较注意的一点。

第四，现在机器人都有自己的名字，有自己的名字，从产品体验上来说，主要是为了防止关机，让机器人保持待机的状态，让它随时响应你，从技术上来说语音唤醒也是一个产品功能，我现在要使用你了，你跟我互动一下。

现在思必驰有针对机器人做了很多，有通用的语音唤醒和定制的语音唤醒，比如儿童型机器人，它的定位是3到5岁的孩童，那么我们需要对特殊人群的声音进行特殊的建模，目前大家在市面上看到所有叫“小乐”的机器人都是思必驰的，因为它用的是我们机器人通用的唤醒词。

还有一些机器人，“小萝卜”机器人，它的唤醒词是“小萝卜”，这有什么好处？一是能针对这个产品，唤醒成本更低。二是让这个产品更有特点。

360度声源的远场交互，360度声源定位以及后端内容服务，刚才大家看到的小乐的DEMO，里面还是简单的麦克风阵列演示，在最新一版的里面已经加入了多轮对话。

在我们的实际测试下，在环境特别复杂的情况下，麦克风阵列最多能吸取的远场程度大概是这样。

现在在国内我们思必驰的机器人业务领域是从去年下半年正式拓展的，到目前国内用到我们语音技术的产品和方案很多，其实思必驰一直专注在垂直领域下的语音交互，目的就是为了针对垂直产品下用户的具体需求，配合我们的产品去做更好的语音交互体验的提升。

上一篇：乐视智能生态是笑话还是神话？

下一篇：消息称英特尔对可穿戴设备部门大幅裁员