(一) 语音识别 交互领域,声音一直没有多少存在感
1、相关的技术要求太高。中国人说话远不像老外那样一个单词一个意思,而且各地的口音又完全不同,所以语音的识别、唤醒、输入、交互都是问题,当然强如科大讯飞已经可以破译粤语、上海话、四川话了,但是还会有后面的问题。
2、使用场景有限。视觉和触觉的交互随时随地都可进行,只要你低头悄悄打开手机就行了,但是语音呢,嘈杂的地方不行,人多的地方也不行,甚至晚上一个人了、对着冷冰冰的机器说话,也会有太装太怪的感觉。
3、交互模式不自然。不论是Siri的长按唤醒,还是傻乎乎地“嘿Siri”,感觉都比较违和,当你看着屏幕上Siri正处于“倾听录音”状态,心一下子就紧绷了,生怕说错或者说得不及时,说完以后机器开始识别了,你看着进度条又莫名其妙地焦虑不安起来、它能不能听懂呢,会不会听错呢?结果识别出来,果然是错的,日了狗了……
4、应用生态远未形成。尽管讯飞们已经开始开放语音功能和接口,但市面上并没有出现很多的声控交互应用,特别是——没有出现有影响力的第三方应用。
(二)语音终端远未成型
能够大规模商用的中国版Echo还没有出现,即便非常厉害的可能也市场影响有限,养在深闺人不识吧。
(三)语音内容成本过高
1、信息获取成本过高。看文字可以一目十行,看图片可以尽收眼底,看视频基本3秒内就可以判断值不值得看下去。但是语音完全不是这样,你听一段语音(如果不是歌声),往往得听三分之一以上才能判断是否值得听,而这个过程是漫长的、听的时候还动不动走神、左耳朵进右耳朵出,如果再加上漫长的前奏简直令人抓狂。这还只是一段语音,如果我又在很多语音中来回播放暂停选择想听的内容呢?这个过程简直繁琐得崩溃了!
2、使用场景有限。一样的道理,文字图片可以在任何地方看吧,但是语音呢?
3、差异化价值“貌似”不高。既然都能看文字解决,为何要用语音呢,难道就是为了主播磁性的嗓音?如果是为了这些感性的体验,视频是不是更好一些呢?
这样看起来,好像语音一无是处,可真的是这样吗?解决几个症结就好了。