Q9:这确实看起来有点….,那如果加上深度学习和神经网络呢?
A:用上深度学习和神经网络,那就彻底改观了。
仔细想一下,我们给别人介绍某人的长相时,很喜欢说,这个脸长得特别像谁谁谁,然后发型有点像谁谁。也就是说,人类是通过一些基本脸型的组合来认人的。数学一点来看,有几个基本脸,然后一个新的人脸,就可以被简化成一串数字,每个数字代表某一个基本脸所占比重。
那好,基本脸从哪里来?脸的基础单元是部位,部位的基础是边,形状,是各种边的组合。所以要认脸,先找基础边。这些边怎么找?之前摩托车的例子中,边是认为定义的(4 种特殊角度)。人的设定,要么是偷懒,要么就是基于经验,而经验是大规模数据在人脑中统计之后得到的印象。如果换成机器自动做这个统计,那就叫机器学习。而这种由样本进行统计,一级一级的由简单的边开始,最终达到基本脸的机器学习(统计)过程,叫做深度学习。
具体来说,从左边第一张图,找到所有的边,再看第二张图,发现有些边重复的,就把这个关联变粗(用粗线表示,线越粗表示重复次数越多)。最终统计下来,有些边重复次数特别多,是重要的,就作为基础边。同样道理,我们从图中统计出来基础边的重要组合,就是基础部位,再深一层,就是基本脸。具体的运算过程会比较复杂,对应一种由节点(边、部位、脸)和节点间连线(粗细表示重要程度)的计算架构和相应算法,这个叫做神经网络。
Q10:总结一下图像识别吧?
A:图像和语音识别,核心都是特征值转换算法,即基础单元&数字表示。深度学习就是指基础单元库源于数据统计而非人为设定(合理,可解释);神经网络指的是一级一级分级优化,权重连接(最简化基础单元库),这两个通常一起出现,使得结果既合理又简单。
大型神经网络价格较贵,每一个节点都是通过高性能 GPU 或者工作站进行实现,几百万美金的投入也就能购买几千个节点,所以这是大公司的游戏。小公司通常采用多个小神经网络,虽然识别准确率会受到一定的影响,但是在不较真的应用场景,比如说家用的人脸识别,中小规模公司用的门禁识别等等,已经可以足够好到用户分辨不出来了。
Q11:能否整体总结一下人工智能?
A:人工智能,首先是能听懂看懂(识别)。这一是收集数据(工作量),二是精进算法(可人工凭经验,或者大数据做统计)。对小公司来说,主要是工作量。
再进一步是能反馈(对话),除了天生有数据的以外,主要就是规则制定(工作量)和数据收集(工作量)。在比拼工作量的事情上,产品设计往往更为重要,该做什么不该做什么主要应该做什么,是小公司集中有限资源于一点突围的法宝。
再高一层,是有记忆。来过一次就记住你了,下次来直接就能叫出你名字;比如说你回家晚了,会主动的问候,这些都是产品设计的事情。
三、人工智能的投资逻辑
我们认为 To C 的人工智能,由于应用场景要求不十分严苛,且人才储备已经足够充足,已经由技术活更多的向产品活儿转变。所以在这个层面上说,我们愿意投资具有强大技术实力,但同时更是一个具有超强产品思维的团队,最鲜明的例子,就是 Rokid。如果你有机会尝试,想必你会被用户体验惊艳到。
至于 To B 的人工智能,图像识别在苛求精准度的应用场景下,还是非常需要高大上的技术团队,从这个层面上讲,我们投资了 Sensetime;语义理解需要在特定场景下的深耕细作,需要特定场景下的大量数据,在这个层面上,我们倾向于专一行业深耕细作,所以投资了智齿科技。
至于标题中的问题,我们想说的是:一、VC 的投资核心在于生产产品和提供服务的公司,能真正被大家所用的解决实际痛点问题的产品和服务,如果再有一个 DeepMind 一样的高技术公司摆在我们的面前,我们投资的逻辑,不是能不能下棋,而是它未来能提供更完美的落地的产品和服务;二、AI 现有阶段,在语音语义和图像识别上,已经从技术活儿变成产品活儿,进而是我们的投资热点。