互联网女皇鼓吹的智能语音是下一个创业风口吗？

程序员文章站 2022-03-15 11:28:58

眼下，怕是互联网最纠结的时刻：智能手机带来的人口红利将尽，仿佛所有人们日常生活中该有的应用都已经被开发出来、用户们也同时失去了尝试新鲜产品的动力；与此同时，向线下的突进因为过重烧钱、没有护城河的模式和...

眼下，怕是互联网最纠结的时刻：智能手机带来的人口红利将尽，仿佛所有人们日常生活中该有的应用都已经被开发出来、用户们也同时失去了尝试新鲜产品的动力；与此同时，向线下的突进因为过重烧钱、没有护城河的模式和讳莫如深看不懂的*深水纷纷受阻，互联网+了半天还是凑不上去；本来年初VR给诸位打了不少鸡血、仿佛商用指日可待，但现在看来目前的终端too young、恐怕至多也才刚刚达到“塞班的阶段”；而最近一直在提的内容、直播、网红等伴随着政策的收紧、大平台制霸和数据造假的曝光，看起来越来越不像是真正的风口……除去以上的种种，一场资本寒冬让投资机构们彻底懵逼了，失去了往日的格局和耐心，归根结底：快没钱了。

那么问题来了，下一个机会在哪里呢？

恰在此时，互联网女皇来了，最新的年度趋势报告十分之一的篇幅给了“语音”。女皇陛下是这么说的：语音正在被重塑，成为人机交互的新范式，在过去75年里，每10年就有一次人机交互的重大革新，人类对机器的操作，从物理手柄按键，到物理键盘鼠标，再到触摸屏，而现在语音成为了重要的交互方式。她的案例是Amazon的硬件：Echo。其内置了Amazon Alexa语音助手，目标是占领家居、汽车、手机的麦克风，还能智能购物。这款产品销量已突破400万台。女皇更是大胆指出：语音拐点已经到来，在2015年智能手机销量下滑之后，Echo销量或将腾飞。（以上引自《超过十分之一的篇幅给语音，互联网女皇为何看好麦克风？》）

遥相呼应，最新一届苹果全球开发者大会WWDC上，库克也放言将逐步向第三方开发者开放Siri，如果这一切不是“讲故事”的话，不出意料我们将看到iPhone上出现更多的声控APP。与此同时，谷歌公司也提出了雄心勃勃的Google Home计划，利用语音和自然语言查询技术的结合侵入用户的客厅。

那么问题又来了，对于中国市场而言，语音会是新的机会吗？声控交互会成为VR到来前大热的交互模式吗？中国的讯飞和喜马拉雅们会一路插上翅膀开始腾飞吗？

在此，菜狗必须先泼一泼冷水，我最痛恨的莫过于照搬西方、哄抬赛道的路数打法，就像过去在文章中写过的那样，中国版的instagram、中国版的Snapchat、中国版的……这些故事后来呢？所以如果今天是在这里放言要有一个中国版的Echo，那就是我自抽耳光、忽悠大家。但是，尽管我们不能照搬照抄西方流行的产品模式，却完全可以分析他背后的东西——需求、心理和社会趋势：Snapchat的崛起印证了IM的高频（脸书你反应慢了给了机会，但腾讯不会）、社交压力带来的发布反悔（腾讯有微信消息可撤回）、年轻人寻求没有父母的个性空间（腾讯有QQ空间）。

所以，不论有没有人会去copy to china，这背后有一个话题非常值得探讨：声控交互的商业价值有多大？以语音信息和交互为主打的平台，将有怎样的市场潜力？

一、当下的语音行业怎么了？

有人要说，这回你外行了，语音的故事早就被我们玩烂了，结果也就那样。确实，印象中从许朝军做啪啪的那一天开始，移动互联网似乎就已经进入了“语音时代”，然并卵。

1、工具领域，科大讯飞强大的语音唤醒、识别、输入和交互技术从实验室走上前台，领先是领先，但似乎并没有得到太多的应用，让人印象最深刻的恐怕就是讯飞输入法和最近非常文艺好用的语记平台，问题不在于讯飞有没有成为中国的Siri（汉语领域肯定强于Siri），问题在于即便Siri也远远没有达到预期的效果、成为人们主流的交互方式，只是一个可有可无的玩具。

2、社交领域，涌现出唱吧、啪啪、抬杠、陪我、比邻、偶尔、派派等一批语音社交平台，然而几年下来谁也没有真正达到“社交平台”的标准和要求。啪啪们的图片加语音成了一种锦上添花的存在，远远没有达到高频刚需的状态，更何况其阅读成本奇高，远远不能和立刻一目了然的图片视频相比；更多的平台成了当年的168声讯台、色情热线，或者当年的碧海银沙聊天室；即便在主流的微信平台上，动不动发语音的人、一发发一串的人也常常变成不受人们待见的存在。唯一做得好的可能就是唱吧，因为唱K这样一种生活中常见的社交模式真的只能靠语音。

3、内容领域，这可能是目前唯一可圈可点的区域，喜马拉雅、echo、听书、得到们从不同的角度切入，通过基于语音的媒体内容吸引了一票拥孬：比如根据易观智库的《中国移动电台市场年度综合报告2016》，作为行业领跑的喜马拉雅，其日活用户渗透率已经高达74.3%，这么好的DAU数据即便放在整个移动互联网领域也是不多见的，而最近这家平台刚刚通过售卖奇葩说老僵尸们的《好好说话》语音节目赚得盆满钵满。

那么这里就有一个问题，为什么唯一做起来的是语音内容呢？同时，在内容生态领域最强的莫过于“两微一端”（微信、微博、新闻客户端），主打语音的内容平台能做成那样的体量吗？以后有一天人们会说“两微一端一电台”吗？

二、当前语音的症结在哪里？

有人又要说，语音的内容还不错埃但远远没有到离不开的地步吧？而且语音这东西，太麻烦！是的，就是这个“太麻烦”严重制约了语音的发展。

（一）语音识别交互领域，声音一直没有多少存在感

1、相关的技术要求太高。中国人说话远不像老外那样一个单词一个意思，而且各地的口音又完全不同，所以语音的识别、唤醒、输入、交互都是问题，当然强如科大讯飞已经可以破译粤语、上海话、四川话了，但是还会有后面的问题。

2、使用场景有限。视觉和触觉的交互随时随地都可进行，只要你低头悄悄打开手机就行了，但是语音呢，嘈杂的地方不行，人多的地方也不行，甚至晚上一个人了、对着冷冰冰的机器说话，也会有太装太怪的感觉。

3、交互模式不自然。不论是Siri的长按唤醒，还是傻乎乎地“嘿Siri”，感觉都比较违和，当你看着屏幕上Siri正处于“倾听录音”状态，心一下子就紧绷了，生怕说错或者说得不及时，说完以后机器开始识别了，你看着进度条又莫名其妙地焦虑不安起来、它能不能听懂呢，会不会听错呢？结果识别出来，果然是错的，日了狗了……

4、应用生态远未形成。尽管讯飞们已经开始开放语音功能和接口，但市面上并没有出现很多的声控交互应用，特别是——没有出现有影响力的第三方应用。

（二）语音终端远未成型

能够大规模商用的中国版Echo还没有出现，即便非常厉害的可能也市场影响有限，养在深闺人不识吧。

（三）语音内容成本过高

1、信息获取成本过高。看文字可以一目十行，看图片可以尽收眼底，看视频基本3秒内就可以判断值不值得看下去。但是语音完全不是这样，你听一段语音（如果不是歌声），往往得听三分之一以上才能判断是否值得听，而这个过程是漫长的、听的时候还动不动走神、左耳朵进右耳朵出，如果再加上漫长的前奏简直令人抓狂。这还只是一段语音，如果我又在很多语音中来回播放暂停选择想听的内容呢？这个过程简直繁琐得崩溃了！

2、使用场景有限。一样的道理，文字图片可以在任何地方看吧，但是语音呢？

3、差异化价值“貌似”不高。既然都能看文字解决，为何要用语音呢，难道就是为了主播磁性的嗓音？如果是为了这些感性的体验，视频是不是更好一些呢？

这样看起来，好像语音一无是处，可真的是这样吗？解决几个症结就好了。

三、语音的核心价值和竞争力

回到开头，我们来看Echo这个产品。它和Siri最大的不同在于：这是一个纯粹通过语音、完全不需要屏幕的产品，看起来就像一台音响，用起来就像和人对话一样。进一步说，它解放了人们的眼睛和双手，你可以一边做别的事情，一边用语音和它交互。

这样一说就清楚了，归根结底，Siri和讯飞们并不是纯粹的声控交互产品，他们顶多只能算半声控交互产品，因为从唤醒他们到判断语音输入准确与否到最终的结果显现，你几乎都要用到眼睛和手，声控交互的核心价值“解放眼和手、不再低头族”完全得不到显现。换句话说，他们都是视触觉交互的补充而已，所以本身就锦上添花、可有可无。

你用Siri打开微信，比自己亲手打开能方便多少呢？你用语音输入法输入一段话，错了还得回删，这真的比打字输入更方便吗？

但是Echo展现出的是纯粹声控交互完全不同的价值，并且这几乎是一个“高频刚需”。

1、抓住了不适宜使用手和眼睛的人群。比如中老年人、残疾人、不擅长打字输入的人群，除非有一天人类技术发达到脑波交互，否则语音都是最适合他们的交互模式。

2、抓住了不方便使用手和眼睛的场景。这就是我们常说的“低头族场景”，走在路上、正在开车、晚上睡前、保护视力。由于以往的声控交互产品做得太差，中国人以强大的适应能力，练就了在这些场景“眼疾手快、目不离机”的超能力，哪怕视力下降、头昏眼花、低头撞人也在所不惜。但是试想一下，如果声控交互真的做上去了，语音真的成了乔布斯口中的“自然延伸”，他们还会这样吗？

3、创造了全新的伴随式场景。小的时候，我们为何早上起来会听收音机，因为可以边听边做其他事情，一心两用。对，就是这个一心两用！今天我们为何会一边跑步一边开车一边听喜马拉雅——像笔者年初一边在虹桥火车站办手续一边在喜马拉雅听罗胖的跨年演说、一边热泪盈眶……这都是一心两用呀！简言之，声控交互解放了人的手和眼，不仅在不适宜使用眼手的“低头族场景”，更在其他丰富的时刻。通过声控交互，你可以边听边说，一边干其他事情，这种一心多用的方便效率是不可抵御的。本来这些事，你要不停切换APP来完成，或者放下手机、把视线移到别的地方，但是现在完全可以并行不悖、同步推进了。

4、语音有其独有的魅力。Echo首先是音响，可以播放音乐。而在人与人的沟通中，影响最大的是身体语言带来的气场（可惜隔了手机屏幕就完全体现不出来了），其次就是声音（音调音色节奏），最后才是内容。从这个角度说，语音的成本确实比文字高，却远比文字“有温度”，黄执中的辩词如果打成文字你未必读得下去，但只要他魔鬼般的嗓音响起，你立刻觉得他什么都是对的了；语音确实没有视频一目了然，但成本却远比视频要低，你不需要打瘦脸针玻尿酸弄出一张网红脸，因为当你的声音响起，没有人在意发声的人有没有罗胖帅。这也是为什么最近大火的分答会用语音，一来“盗版”成本高一点，二来听到名人真实的声音、这满足感是不同的。

四、全新的机会，声控领域的BAT

BAT？有人要说了，你这不是在拉大旗做虎皮吗，说到底还是忽悠我们开发中国版的Echo呀。

恰恰相反，我并不认为Echo是创业者们最好的选择，但是“基于纯声控交互”的APP却可以成为一个机会，关键在于讯飞和喜马拉雅们能不能迅速“醒转”，构建出一个对第三方更加友好的生态。

什么是基于“纯声控交互”的APP，说白了就是整个APP的使用过程都完全不需要通过屏幕触摸、不需要动用眼睛和双手，最好连唤醒他们都可以用语音。这样的APP一旦出现，我们就根本不需要购买Echo，因为手机就是个简易版的Echo了，我把手机放在一边，一边做别的事情，一边就可以使用声控交互了。如果你使用与声控系统匹配的专用耳麦，如果这个耳麦可以随时响应、识别你微小的声音（在人群中大声很傻比），那么耳麦就是Echo，就是手机之后真正的可穿戴智能硬件，比手表之类强多了。

基于目前已经研发出的汉语语音识别唤醒技术，讯飞完全具备这样的能力，但是成果多半在实验室里睡大觉。如果能早一步开放出来，如果能搞好与苹果安卓厂商们的合作不被“雪藏”，那么接下来的势能是非常可怕的。

在笔者看来，一旦声控交互成熟了，接下来在这五个区域有明显的机会：

1、新一代的语音助理，各个声控应用的统一调用入口

这是讯飞和Siri们的机会，喜马拉雅这样的高活跃产品也可以向此进击。简言之就是声控版的appstore、应用宝。只要这个入口处于开启状态，就可以随时通过语音对话的方式调用各个声控应用，而不需要打开屏幕用眼睛找到那个应用再点开——这就是软件版的Echo。他的唤起和使用都应该是毫不费力、自然而然的，不要像Siri那样喊起来用力、用起来发急。可以想象，这个平台会是未来声控交互的入口，是整个声控应用生态的命脉。

2、声控类的工具

在子不语的《下一代交互革命是语音：Voice In Voice Out》一文中，描述了这样的场景：你可以和她交谈，她可以帮你控制关于房子的一切，灯光、温度、微波炉、冰箱……Echo已经能做到什么了呢？播放音乐、创建提醒、播报新闻自然不在话下，Echo还能根据你在亚马逊上的购物记录，智能地帮你下单。甚至，借助于前面提到的Skills，已经有人用Echo控制了家中的几乎所有电器：灯光、温控、电视机、Apple TV、安保监控、热水壶、车库……当然，这里就涉及到智能家居组网、车联网等问题，后面会提到。

3、声控类的社交

a、熟人通讯方面，我们应该都见过这样的场景，出租车上司机们通过对讲平台互相勾兑、插科打诨。路上匆忙的低头族，很多都在回微信，而如果通过声控交互构建一个对讲平台，这个体验就完全不一样了，你不需要用眼和手也可以随时给某某捎去一段话，别人给你发来语音、声控交互会提示你是否接听，而如果这个交互可以通过耳麦自动识别微小的语音（并根据接听者情况适度放大），那么以后走在路上就可以轻松而不违和地与人通话了，这个事情的意义在于将从另一个角度接管用户的关系链，形成大网优势。

b、陌生人社交方面，当下社交产品最大的痛点就是社交质量差、低效社交多、效率远远赶不上用户预期，一个突出表现就是搭讪无人理睬、理睬也在若干小时之后（所以人们为何喜欢直播，因为美女主播至少会说谢谢反馈下），但是语音沟通是一个更加强调即时性和真实性的场景，又不像视频那么需要“化妆和端着”，所以反而可能成为新的突破口。至于当下的语音社交平台为何多数做的不好，因为太像色情声讯台了！到底应该怎么做，笔者后头的产品会做出回答。

4、语音类的内容

前面已经说过，语音内容是目前做的最好的区块，那么接下来的重点是：

a、改善交互。现在的模式是打开列表、看标题内容简介、点播放键、再点暂停键、再看列表，这个过程太累了。但是试想一下，为什么我们小时候调收音机换台不会这么累呢？为什么我们走在人群中偷听不同人的对话不会这么累呢？因为这都是步骤更少、更加自然而然地交互，实际上美国已经有一款非常厉害的可视化语音应用解决了交互成本问题，是什么先不表。

b、兴趣推荐。如果选择值得一听的语音节目成本如此之高，那么一个比较好的办法就是基于兴趣的推荐来降低选择难度。比如喜马拉雅已经推出了“猜你喜欢”系统，可以通过深度学习、进行类似今日头条那样的个性化推荐。那么再进一步，如果以后这个推荐可以不需要通过眼睛完成呢，直接传来一个声音：“小喜根据你的爱好搜到了几个节目，下面念下标题，你感兴趣就喊要这个……”

c、时空触发。这个意思是，应该给更多的信息赋予时空属性，比如在某一时刻放出，或者在某一位置放出。举一个例子，你今天刚到一家商场，连上Wi-Fi，耳麦里立刻提醒你有最新的优惠活动信息、要不要听。你像即刻那样设置一些关注节点，比如某股又跌了，当这个消息到来，耳麦里立刻提醒你要不要听。你到达某个景点，耳边响起景点的典故。你晚上睡不着了，耳边响起周围人的声音，像不像《Her》？

d、做强参与。同为视频，直播爆火的劲头远远强于当年的视频平台和短视频，这也释放了一个信号，用户并不满足于成为单向的内容接受者，他们也希望成为内容的参与者甚至再创作者，他们也希望得到更多的互动和回馈，来满足参与感、存在感和归属感，所以类似电台的互动直播很重要。

e、声音网红生态。如何俘获声音领域的“网红”们，通过更丰富的办法帮助他们获取规模精准流量、降低内容生产门槛、维护粉丝社群、持续多样化盈利。比如喜马拉雅的PUGC生态战略，已经拥有400万主播、8万认证主播，这个供给端的大棋该怎么下下去？

f、制作成本。事实上制作成本的问题完全可以解决，一个是更加灵活强大的声音编辑工具，另一个其实是文字到语音的转化工具——你声音不好？你不会抑扬顿挫？那么讯飞正在尝试在语记一类的平台推出文字转化成声音的功能，不是冰冷死板的普通话，而是可以转成萝莉的声音、方言的声音、林志玲的声音、单田芳的声音……

5、声控类的终端

尽管菜狗对硬件终端充满了“恐惧心理”，但是说到底，如果这个声控交互能强大到占领你的客厅，占领你的卧室，占领你的驾驶室，甚至更强大一些，可以无处不在，像《Her》中那样在云端接受和处理不同人的信息，你可以在任意的咖啡馆、写字楼、商店、公交上唤起他……那么毫无疑问，这一切都需要终端领域的进击。如果这个事情有人能做起来，那就是真正的“生态化反”了。

五、声控交互还有多远？

声控交互不是简单的YY，事实上未来已经到来。

以智能终端为例，科大讯飞已经推出了一款名为叮咚的智能Wi-Fi音箱，也许用不了多久这种汉语声控的设备就会出现在你的身边。同时进军音箱领域的喜马拉雅FM一方面将内容植入Sonos、哈曼、漫步者、Misfit等智能产品中，另一方面通过收购国内顶尖音箱厂商海趣科技，自主研发了3D降噪耳机等产品。

在应用场景方面，两家语音领域的巨头联合推出了语音开放平台，喜马拉雅FM的“喜马拉雅inside”开放平台直接对接各类下游硬件研发和生产企业，打造应用生态、拓宽应用场景的野心一目了然。喜马拉雅FM的海量音频内容已经植入智能家居、汽车、音箱等超过300家品牌，包括宝马、福特、比亚迪、百度Carlife在在内的几乎所有主流车厂（车载系统）已全线接入喜马拉雅FM；车生活系列的随车听正在侵入用户的驾驶室，家声活系列的故事机、听书宝、接入喜马拉雅的智能冰箱已经开始觊觎用户的家居生活。与此同时蜻蜓FM和考拉FM的车联网、智能家居战略已经磨刀霍霍。

这就是不久的将来，语音将像水和电一样，随取随用，*流动在每一个人的耳朵和心里。明确的人群和场景、高频应用的可能、进一步侵入住家私车进而无处不在的潜力、明确的技术和标准门槛，这个故事看来很美好。

但是最后菜狗还是必须提醒大家，这一切的前提是：技术足够强大并且向第三方开放、声控交互的全面优化和规范形成、苹果安卓们愿意让出这块肥肉、有影响力的声控应用的出现。这里面每一步的实现都不是轻而易举的，但正如互联网女皇说的那样，语音正在成熟，目前是最接近这个机会的节点。

本人张俊，野路子产品菜狗一枚，创业在上海，测试打磨全新的消费向兴趣社区中，运营sns lab社群，事件营销研究者，微信号：biohazard2015，欢迎勾兑，吵架不回。

上一篇：语音接口我们已站到下一个交互时代的边缘

下一篇：你还用键盘打字？语音识别比手动输入快3倍