如何从纷繁复杂的样本中去抽取规律?做得最好的就是人类的大脑,能够举一反三、不断学习。这个学习中最简单的单元就是神经元,它有很多神经簇,和其它神经元相连,神经元接收到外部的信息输入后,把对信息信号的反应通过神经末梢传到其它神经元。
这个构造可以用一个简单的数学公式描述:感知机模型,基于单个神经元构造具有学习能力的人工智能系统,它像神经元一样,从外界获得输入后,传递到中央处理的地方,通过简单的运算再向外输出。
今天,这个简单的模型正向几个维度扩展,也就是从线性的输入输出,发展到深度神经网络,最后形成具备学习功能的人工智能系统。
深度学习为何应该受到重视?
我们最近经常听到“深度学习”,在最大规模的互联网公司如谷歌、微软、脸书、百度等等都在运作,并产生巨大的商业价值,它让自动驾驶等过去不可想象的事情变得触手可及。这样的技术为什么应该受到重视?
1、模拟人类大脑的分层结构以及行为
我们今天发现了基于视觉的神经网络(科学家在研究过程中受到了大脑内视觉信息分层表述的启发。随着视觉输入流从视网膜传输到初级视皮层,再到下颞叶皮质,在识别物体前,每层都会进行处理,从而准确地识别物体),因此可以用数据训练系统,让系统能够反映出视觉神经网络的结构和行为。为了模拟这一过程,神经网络的设计者们在模型中设计了几层计算,刚开始,最底层的神经元对颜色不敏感,对边界和朝向敏感,它能复原出物体的轮廓,把轮廓提取出来,上面一层的神经元具备一些更有意思的行为,对物体的部位很敏感,更高一层的神经元对物体开始敏感,它是一个逐层的、从局部到整体的敏感过程。这就是从数据开始呈现的视觉网络行为。
在听觉神经系统里面有类似的现象,我们用数据的深度训练也得到类似的现象结果。
2、深度学习特别适合大数据
过去的模型和方法对于大数据的处理是不好的,通常我们衡量一个模型的好坏是用推广误差进行测试。通过推广误差找到原因并得到控制,从而找到一个更好的学习办法。推广误差来自于几个方面:
来源之一是对模型进行假设,但是模型假设是没有最完美的,所以肯定有误差。在概率统计学有一个著名的说法:你所有的模型都是错的,但有些模型是有用的;
来源之二是数据的不完美,样本有限,或者有噪声,或者有偏差。这两种不完美都会带来误差,因为典型的统计学范畴忽略了一点:假设了无限的计算资源,这是来源之三。计算机科学做的是实际问题,就会导致计算的不完美,就会导致误差,所以你要尽量让你的假设完美,让你的假设足够宽泛,收集大量的数据,寻求算法处理大数据。
传统人工智能算法不能处理更大规模的数据,因为如果算法的复杂性和样本是立方的关系,当计算机设备数量和样本成同比立方增长的时候,意味着数据增加了,算法就更难了。这就是为什么深度学习应该受到重视,它特别适应大数据,数据越大,算法越好。
3、深度学习是一套灵活的建模语言
怎么写出一篇好文章,和如何做出一个好的人工智能系统,是相通的,就是对语言有足够灵活的驾御能力、需要对所面临的生活和问题有深刻的感悟和思想,灵活的建模语言和内在洞察相结合,才能够做好。
深度学习是历史上第一次出现的端到端学习,不管是语音识别还是从感知、预处理到预测、判断,过去绝大部分的工作是做最后一个部分,而没有完成前面的几个动作。从计算上面来讲,在没有深度学习之前,上面几个步骤是消耗计算资源的、人工手动的,但是深度学习是一气呵成的,减少人工手动。这个变化是革命性的,今天这已经成为共识了。
4、深度学习的成功应用
我们来看看一些成功的应用,比如在计算机领域的图像识别,从最原始的输入图像出发,然后中间不断抽取数据、变换、训练。
Image Net是是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。从2010年,它的水平在不断提升。最大的进展发生在2012年,因为深度学习的接入带来巨大的提升,但是计算机比人更聪明吗?不是,它是比普通人识别更多,但绝对比不过专业人,它绝对没有比人更聪明,计算机是在某件事情上优化一件事情,但不代表整体上比人更强。
现在,技术可以识别非常潦草的手写电话号码、任意方向的文字检测、人脸识别(如基于深度学习的人脸识别技术:百度魔图),甚至做一些更严肃的事情,比如自动驾驶。现在很多公司都在做自动驾驶,听起来很科幻的事情,但是业界推进的速度非常快。
汽车有两大趋势:新能源和智能化。这两个趋势无可阻挡,汽车也变成了机器人,视觉处理显得尤其重要,对于安全而言,最重要的是处理未知,做到全方位的感知,预见情况。
语音识别也是另外一个应用,目前句子的理解力在75%左右,如果能达到90%就非常可怕。从音速特征、语言特征到最后的文字识别结果,语音识别为什么这几年会快速成长?这是因为在前端植入语音神经网络的小尝试,使语音识别可用,带来革命性的变化。基于深度学习的语音识别,可用于地图导航、输入法、移动搜索。