即便对苹果和Google这样的公司来说, 语音识别 也很难,两家公司都收集了大量实时语音数据,帮助开发Siri和Google Now的 算法 ,但效果不尽如人意。对小公司来说,打造 语音识别 应用就更加困难了,而且它们往往无法收集到大量的真实语音数据。而这就是Alexandre Lebrun的工作。
他创办的Wit.ai能将开发者的语音样本集合起来,帮助开发语音及 自然语言 识别系统,Lebrun认为他们的成果在尝试和广度上能与苹果和Google一较高下。这一平台也反映了一种趋势,即随着无屏幕的可穿戴设备的兴趣,越来越多的开发者会使用语音交互技术。
目前,Wit.ai已经吸引了数千开发者,而本周三它在种子轮中融资了300万美元。
发现问题
事实上,Wit.ai脱胎于Lebrun之前创立的公司VirtuOz,该公司专为AT&T等公司开发 语音识别 系统。但在工作中,Lebrun发现每开发一个新系统,一切都要重新开始。对每一个项目,他们都要收集新的语音样本以训练系统。虽然各项目的语音指令集有重叠的部分,但VirtuOz无法将一位客户的样本用于另一位客户项目。
结果是, 语音识别 效果并不完美,在体验上也十分糟糕。更重要的是,由于 语音识别 系统的设置费用相当高,服务商都不会解决小公司或开发者的需求。
去年,Lebrun将VirtuOz卖给了开发出Siri的 语音识别 公司Nuance,然后创立了Wit.ai。
如何运作?
一般而言, 语音识别 系统的开发会从“语法”(想要计算机识别的语句的集合)开始,然后开发者会使用尽可能多的语句发音样本“训练”计算机,让其识别语法。由于用户指令各异,同一需求有多种表达方式,所以语法要尽可能多。
Wit.ai所做的是让公司共享语法和训练数据,就像GitHub让软件开发者共享代码一样。开发者能对GitHub上的代码进行更改,而Wit.ai上的语法也能用于开发不同的应用。
Wit.ai的商业模式也与GitHub相同,用户会免费分享数据。不过为了保护隐私,用于训练系统的音频记录不能共享,而不愿共享语法或数据的公司可以付费使用该公司服务。
免费
与Wit.ai一样,现在有越来越多的公司和项目能帮助开发者在各自的应用上布署 语音识别 系统,其中有开源项目Julius和CMU Sphinx,也有Google的语音转文本服务。Lebrun希望通过免费获取更多的语法和训练数据,最终根据这些数据开发的系统能与苹果及Google匹敌。
Wit.ai的一个问题是,所有音频都要通过 互联网 传输到公司的服务器,这意味着使用时会出现延时,甚至隐私问题。不过,Lebrun表现,现在已经有了一个混合版本,能直接在客户端工作。