语音识别领域的GitHub:Wit.ai让每个公司拥有自己的“Siri”
即便对苹果和Google这样的公司来说,语音识别也很难,两家公司都收集了大量实时语音数据,帮助开发Siri和Google Now的算法,但效果不尽如人意。对小公司来说,打造语音识别应用就更加困难了,而且它们往往无法收集到大量的真实语音数据。而这就是Alexandre Lebrun的工作。
他创办的Wit.ai能将开发者的语音样本集合起来,帮助开发语音及自然语言识别系统,Lebrun认为他们的成果在尝试和广度上能与苹果和Google一较高下。这一平台也反映了一种趋势,即随着无屏幕的可穿戴设备的兴趣,越来越多的开发者会使用语音交互技术。
目前,Wit.ai已经吸引了数千开发者,而本周三它在种子轮中融资了300万美元。
发现问题
事实上,Wit.ai脱胎于Lebrun之前创立的公司VirtuOz,该公司专为AT&T等公司开发语音识别系统。但在工作中,Lebrun发现每开发一个新系统,一切都要重新开始。对每一个项目,他们都要收集新的语音样本以训练系统。虽然各项目的语音指令集有重叠的部分,但VirtuOz无法将一位客户的样本用于另一位客户项目。
结果是,语音识别效果并不完美,在体验上也十分糟糕。更重要的是,由于语音识别系统的设置费用相当高,服务商都不会解决小公司或开发者的需求。
去年,Lebrun将VirtuOz卖给了开发出Siri的语音识别公司Nuance,然后创立了Wit.ai。
如何运作?
一般而言,语音识别系统的开发会从“语法”(想要计算机识别的语句的集合)开始,然后开发者会使用尽可能多的语句发音样本“训练”计算机,让其识别语法。由于用户指令各异,同一需求有多种表达方式,所以语法要尽可能多。
Wit.ai所做的是让公司共享语法和训练数据,就像GitHub让软件开发者共享代码一样。开发者能对GitHub上的代码进行更改,而Wit.ai上的语法也能用于开发不同的应用。
Wit.ai的商业模式也与GitHub相同,用户会免费分享数据。不过为了保护隐私,用于训练系统的音频记录不能共享,而不愿共享语法或数据的公司可以付费使用该公司服务。
免费
与Wit.ai一样,现在有越来越多的公司和项目能帮助开发者在各自的应用上布署语音识别系统,其中有开源项目Julius和CMU Sphinx,也有Google的语音转文本服务。Lebrun希望通过免费获取更多的语法和训练数据,最终根据这些数据开发的系统能与苹果及Google匹敌。
Wit.ai的一个问题是,所有音频都要通过互联网传输到公司的服务器,这意味着使用时会出现延时,甚至隐私问题。不过,Lebrun表现,现在已经有了一个混合版本,能直接在客户端工作。