智慧语音四步走，让人工智能变有趣

程序员文章站 2022-12-04 23:03:18

智慧语音四大阶段：语音聊天；语音操控；情感化和人格化；人机合一目前智慧语音带来了互动沟通乐趣，养成了初步习惯，也逐渐可以语音操控智慧语音会变得更加有趣语音操控核心是语言系统和操作系统的无缝整合，语音指...

智慧语音四大阶段：语音聊天；语音操控；情感化和人格化；人机合一目前智慧语音带来了互动沟通乐趣，养成了初步习惯，也逐渐可以语音操控智慧语音会变得更加有趣语音操控核心是语言系统和操作系统的无缝整合，语音指令权重将更高

在周末的极客公园年会上，百度公司创始人李彦宏大谈人工智能，robin认为现在人工智能已经趋于成熟，在移动互联网时代，技术变得更加重要。与此同时，奇点大学的校长RayKurzweil表示2020年我们模拟人类智能的成本就很低了，2045年人工智能超越人类的智慧带来全新形态的文明。

相比颇具科幻感的未来人工智能，普通大众更容易接触到的是智能语音技术带来的生活改变，中兴通讯、nuance、audience、百度、高德、中国科学院自动化所等近十家单位成了智慧语音联盟，已经在布局智慧语音技术的规模应用和生态建设。智慧语音作为人工智能前端的交互模式，更接近于人类交流模式，而且可以分阶段、分层次、分深度地融入手机、汽车、家电等设备中，一步步地牵引人们走向人工智能的时代。

智慧语音四步走，让人工智能变有趣

科技革命：智慧语音的四大阶段

智慧语音技术和应用按照其智能程度、价值水平、交互层次、思考深度等分为四大发展阶段：语音聊天、语音操控、情感化人格化、人机合一。

语音聊天。这是语音技术的初级模型建立期。语音聊天是机器学习的过程，也是赋予机器思考能力的过程，人们和机器人进行对话聊天的过程中，机器人越来越智慧，并逐步建立人的样本特征库。像iphone上的siri、小娜等聊天机器人都是用大数据和机器学习的技术进行人机对话，这些聊天大多数是娱乐需求，在早期活跃度很高，但随着人们新鲜期的退潮，语音聊天的热度持续性在大幅降低。

语音操控。这是智慧语音的应用阶段，将语音技术和系统软件的深度整合，是赋予机器功能以运动能力和语言系统控制的能力，好比人的语言命令系统。此阶段，让机器和人的沟通超出了聊天对话，而具有现实的应用价值，发挥技术生产力价值。把语音内嵌到操作系统里，可以通过智慧语音来唤醒手机的应用、通讯录、拨打电话、听音乐等功能。最抢眼的是驾驶模式下可以通过语音全操控手机，不需要触摸手机或屏幕就可以唤醒手机，并操控手机，还可以智能播报短信、语音转文字等，将智慧语音的交互模式优势发挥到了极致。

情感化和人格化。相比语音操控的语音和机器深度整合，智慧语言的下一步也许是更加充满情感，像人一样有情感交流，人格化是智慧语音接近于人类自然语言系统的高级境界。此阶段，语音操控会是最基本的智慧能力，星星x号的智慧语音或许可以听出人的语气、情绪、态度，而不仅仅是通过简单的字面意义的互动，它们会像你的助理一样陪着你生活、快乐、感伤，这就要要求智慧语音系统有高超的声纹识别技术和聪明的大脑。

人机合一。这听起来就比较科幻了，但是从目前的人工智能技术发展来看，也许10-20年内是能够实现的，这个阶段智能语音交互模式已经无限接近于人类的语言系统，并能将人类的自然语言转化成操控机器的指令系统，能够主动地为主人提供服务，并通过开放api能够语音操控非常多设备。机器像人一样思考，能够理解人的语言含义和情感系统，每一个机器像自己的兄弟一样可以一起战斗。

现阶段智慧语音给我们带来了什么

Siri、小娜们带了智能手机的拟人化互动沟通乐趣，偶尔放松一下也无妨，但由于其只是独立app，需要触控操作唤醒，能够实现的语音操控十分有限，是智慧语音时代一个良好的趣味开始。siri的贡献是让人们发现了语音技术的力量，并培养了初步的用户习惯，开启了智慧语音的大门。

星星2号的智慧语音水平是第二阶段的，重点强化了语音系统和手机操作系统的深度整合，语音可以操控手机的主要功能需求，其最大的特点是驾驶模式场景，智慧语音的交互模式展示了高实用价值。开车时候不需要用手触摸操作手机了，语音操控交互模式在驾驶模式下变成刚性需求了。

智慧语音操控基本上够用，驾驶模式下大部分操控都已经实现了，用的住，同时，希望中兴能够在后续版本技术升级中不断增加细粒度，也就是提高智慧语音操控手机和应用的种类、应用内动作等。比如，是否可以在未来通过开放api的方式让一些经常使用的应用能够接入进来，比如驾驶模式下语音读新闻、读帖子、读小说应用里的小说、读微信朋友圈文字等等，将整个手机操作系统彻底实现语音操控。

智慧语音的个性化会很有趣

内嵌的智慧语音现在能够唤醒并打开使用高德地图，但是高德地图有个名人播报，高德地图的这个功能，让天天见到的地图应用充满了乐趣和亲切感，如果中兴也借鉴一下高德地图的这个思路会很有趣。每天名人们给我打开音乐、搜这搜那，读短信，会是很拉风的一件事儿。

口音识别的技术现在做的总体还是不错的，但还需要提升，降噪是一个思路，智慧语音能识别口音，是否它能用烟台话和我交互呢?目前智慧语音只能把方言识别成普通话，那么，是否可以逆向思维，输出方言，从而更容易跟各个地方的人进行交流呢?比如，我的星星手机起名为“小嫚”，我跟她说“小嫚，过来哈点儿酒吧”，智慧语音估计很难识别出来，这个机器学习是否能够解决呢?

我还想到一个有趣的场景，罗永浩一直被称为手机界里相声说的最好的，其实，演讲能力大家是都需要的。智慧语音的机器人可以扮演观众，手机主人面对观众进行演讲训练，每当稍长停顿就来点鼓励或掌声，让每一个人都变成相声演员，让腼腆内向的人走出封闭，让孤独寂寞的人有一地方宣泄。所以，我觉得语音情景模式和场景细节中很多东西，这些可以构建出一个智慧语音产品层面的store，让社群参与智慧语音的外部研究和应用场景研究。

语音操控的更高境界是什么

语音操控的核心就是语言系统和操作系统的无缝整合，语音指令系统和操作系统api的整合统一，在语音模式下，语音指令权重更高，操作系统的api起到很重要的作用。逆向思维，智慧语音的操控系统同样也是可以输出api的，如果以语音操控系统为基点，开放语音操控api给手机app开发者们，让各种优秀应用的操作都能够接入到语音操控系统里，这样智慧语音就可以更早一天实现全语音操控手机和使用应用。

更进一步，既然语音操控能够开放api，那么，就意味着可以进行复杂的api编程，可以根据算法序列将一个个语音指令连续起来，并且可以接入到工业机器人、军用机器人、园艺机器人等身上，从而实现语音远程操控系统。这样，我们就可以远程语音和家里的机器人管家对话了，这有点像我们现在正在推进智能家居的连接工作。

高级的语音操控编程在计算能力支撑之下，可以和人进行实时地远程对话交流，我军派出的无人机在自动化战斗的同时，也可以听从指挥部或预警机空中指挥部直接进行语音指挥作战，此时，一言既出，驷马也能追啦。

上一篇：孙坚也是汉末榜上有名的猛将，他为什么要藏匿玉玺？

下一篇：我国服务机器人行业主要政策分析