欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

进击的输入法,只是多了点AI?

程序员文章站 2022-03-23 07:51:21
创新的车轮从未停滞,古老而又活力四射的输入法早已成为用户行为的风向标,如同80后们大多已经忘了70后“必修”的五笔,90后对九宫格输入法的青睐又被00后们嫌弃……可以预见...

从机械键盘被发明开始,人们对于输入法就有着特殊的感情,一面对“键盘”有太多的不舍,即便全触屏的智能手机早已普及,输入时依旧要依赖于“虚拟键盘”;一面又急于寻找更为高效的输入方案,比如笃定语音交互将成为主流的人机交互方式。

1月16日的百度输入法发布会上,百度输入法ai探索版正式亮相,不仅将全语音输入作为默认输入方式,并开启了调动表情、肢体的全感官输入2.0时代。曾经困扰人们多年的键盘输入纠结症,终于有了新答案。

输入法ai化,先来解决三个痛点

智能手机的诞生已经有了十多个年头,可为何语音输入取代键盘的一幕直到2019年才开始出现?要回答这个问题,先要看语音输入面临的三个痛点:

1、准确率能否再高一点?

早在几年前,百度、科大讯飞等相继宣布语音识别准确率高达97%,并不怀疑数字的真实性,attention模型已经较为成熟,各家也在实验室里进行了大量的机器学习,但在实际应用中却存在两个用户体验上的“盲点”。

一个是流式解码的问题。诸如谷歌las等传统attention模型,大多是基于整句的建模,客观上需要整句语音上传到服务器后,才开始声学打分计算和解码,势必会产生较长的用户等待时间。

另一个是长句建模的精度下降。attention模型的核心思想是基于整句的全局信息,通过机器学习选择和当前建模单元最匹配的特征,于是句子越长,识别难度就越大,出错的概率越高,错误前后传导的概率也越高。

为了解决这些“盲点”,百度创新性地提出了流式多级截断注意力模型smlta,先使用ctc算法对连续语音流进行截断,然后对每一个阶段的语音进行建模,把原来整句的建模,变成了局部语音小段的attention建模,同时引入多级attention机制避免ctc的插入删除错误对系统的影响,最终在识别精度上提升了15%,并在保持计算量、解码速度等方面和传统ctc模型持平。

2、离线状态下该怎么玩?

作为一款基础工具,输入法要应对各种场景,比如在地铁、电梯等信号弱,或者人流密集的环境下,传统的“虚拟键盘”似乎不会有太多影响,全语音输入却要回答另一个疑问:如何在离线状态下保证语音识别效率?

为了解决用户的多元输入场景需求,百度输入法持续优化了deep peak 2系统,除了smlta上的创新,还大幅提升了离线语音的识别准确率,相较于行业平均水平提升了35%,不断缩小离线识别和在线识别在准确率上的差距。

百度语音技术总监高亮在发布会上进行了一场离线pk,参赛选手分别是百度输入法ai探索版、讯飞输入法和搜狗输入法,结果显示百度输入法的识别准确率和识别速度要明显高于另外两家友商的产品。或许离线识别还不够完美,至少百度输入法已经可以满足离线场景先的精准输入。

3、语言混合输入如何解?

语言在不断进化,年轻人群尤为如此,明明在说汉语,却夹杂着各种英文词汇,有时还会蹦出两个日语或韩语单词;有时候前一句是普通话,下一句可能冒出一句家乡话……输入法的使命俨然是顺应潮流,那么也就必须解决汉语和外语、方言与方言、方言和普通话来回切换等特殊场景。

常见的解决方案是“手动切换”,比如你想要用四川话进行语音输入,先要到输入法的设置中将语言设定为四川话,说普通话的时候再去切换回来。如此不仅未能解决语言混输的问题,还进一步增加了用户的学习成本,体验自然不尽如人意。

百度输入法的优势在于,不局限在国内市场的布局,百度海外输入法已经扩充到了120门语言,百度输入法的语音团队也在配合市场布局持续发力,陆续上线了日语、英语、印地语、西班牙语、印度英语等语言识别,为了适应一些国家语言混输的特点,百度输入法很早就推出本了地语言和英语混输的功能。有了海外市场的成熟经验,应对国内市场的“中英混输”自然不在话下。

此外为了解决方言混输的难题,百度输入法将普通话和六大方言融合成一个语音识别模型,进而实现了方言与方言、方言与普通话的混合语音输入。截止到目前,百度输入法还是唯一实现高精度中英文混合语音输入、方言免切换语音输入的输入法产品。

为何要先于行业迈出第一步,或许会阴谋家给出“炫技”的论调,但百度语音技术总监高亮的观点值得借鉴:“我们有一个理念,技术只有在产品上使用、让用户真正体验到才是真正的技术,我们绝不会为了技术而技术。”毕竟在输入法的取舍过程中,用户摆脱双手的需求早已出现,只是百度的视野会止于此吗?

输入多点ai,百度瞄准了z世代

如果仅仅从创新的角度来审视百度输入法的进化,未免会低估百度的野心,在将全语音输入作为默认输入方式的同时,诸如拍立活、秀场、表情秀、凌空手写等新表达和新探索,可以说是整场发布会的另一大焦点。

比如拍立活可以对人及动物的脸部关键点进行识别,利用贴图及骨骼蒙皮技术还原出角色的3d模型,然后利用自研的面部行为编码系统驱动角色做出丰富的表情,还可以随意叠加各种ar表情素材,让表情的制作更加简单、有趣。

再比如凌空手写功能,开创了全新的文字识别技术,区别于其他实验室中的类似概念,百度输入法的凌空手写,不需要特殊的手写笔,也不需要深度摄像头或多目摄像头等硬件支持,普通的rgb摄像头就可以完美支持。

由此不难看到,技术范的百度正在以自身擅长的玩法,向崛起的z世代抛出橄榄枝。

先解释下什么是z世代,巴克莱银行在一份报告中,将1995年后出生的人群从时间调度定义为“z世代”,并给出了z世代的典型特征:数字原住民。并不难理解,z世代自出生开始就生活在互联网的海洋里,对于其他年龄层的用户而言,互联网可能还只是生活的一小部分,在z世代的眼中无异于生活的全部。于是相比于其他年龄层的用户,z世代往往是新技术、新科技、新理念的忠实拥趸。

在cbndata发布的《2018互联网消费生态大数据报告》中,给95后贴上了“懒”的标签,成为外卖等上门服务的核心消费。当然也可折射了95后对于效率的追求,对传统行为方式的不满足,如果只盯着“懒”的一面,注定会误解新一代消费者,很可能和潜在的商业前景失之交臂。

百度输入法显然深谙于此,较于传统、低效的键盘,z世代对语音输入有着更强烈的诉求,也是语音输入撬动键盘输入的重要支点。拍立活、凌空手写等近一步印证了百度输入法打入年轻人群内部的野心,想要和年轻用户沟通对话,势必要选择年轻人乐意接受的方式,解决了产品“盲点”的语音输入本就是如此,百度输入法又加上了更多有趣的筹码,打出一套面向年轻用户的组合拳。

在巴克莱银行给出的数据中,预计到2020年z世代将成为全球最大的消费群体,或将占据美国、欧洲和金砖四国消费市场的40%份额。隐约可以看到,百度输入法之所以推崇全语音输入,并向z世代抛出橄榄枝,绝非是无意之举。

尾记

创新的车轮从未停滞,古老而又活力四射的输入法早已成为用户行为的风向标,如同80后们大多已经忘了70后“必修”的五笔,90后对九宫格输入法的青睐又被00后们嫌弃……可以预见,当z世代以及更年轻的世代崛起后,传统的输入法难逃被淘汰的命运,取而代之的将是语音、表情、肢体等“ai输入”。