人工智能,自古以来就是人类渴望实现的梦想之一。随着二十世纪五十年代电子计算机的出现,人们无疑离梦想近了一大步。时至今日,信息系统已深入到千家万户。而随着信息技术的发展,人工智能也已慢慢揭开了它神秘的面纱。从六十年代的感知器,到七十年代的符号方法,八十年代的神经网络,新千年的语义网,一直到现如今的深度神经网络,人工智能技术正在变得越来越强大,越来越有实用价值。深度学习便是人工智能领域的最新热点。它被广泛的运用在图像识别、语义理解等等方面。近来谷歌研究院的围棋机器人Alpha Go,也部分使用了深度学习技术。可见深度学习技术不但是目前的热点,而且是未来的方向,它将会大有可为。
深度学习本质上是一种复杂的,层级非常深的神经网络。其基本理论在上世纪八九十年代便已被Yuan Lecun 等人提出。但在当时,由于大规模神经网络的训练极其耗时,相关硬件水平远远不能满足训练深度神经网络的巨大计算量,所以人工神经网络的发展非常缓慢,仅仅处在科研阶段。而神经网络的深度也很浅,大部分网络是仅有两个隐含层的全连接网络。这就使得神经网络的优点无法得到发挥,以至直到本世纪初,学界的热点主要集中在SVM、Ada Boosting、随机森林分类器上。时间到了2012年,基于n VIDIA GPU(Graphics ProcessingUnit)的并行计算技术 CUDA(Compute Unified Device Architecture)被大规模的
应用于神经网络计算。GPU 集群的出现,使得利用百万乃至更大级别的数据集训练规模庞大的深度神经网络,从不可能成为了可能,这掀起了神经网络的第二次浪潮。而今,深度学习已在图像识别、语言理解等等领域取得了前所未有的成就,并且逐渐拥有了不少的工程应用。
深度学习算法研究现状
尽管多层神经网络及其训练算法早在二十世纪八十年代便已被提出。但由于硬件条件限制,当时的神经网络普遍规模不大,以只有两个隐含层的全连接网络为主,仅仅用作单纯的分类器。这严重制约了神经网络的性能,以致其后相当一段时间内,学界与工程界均倾向于使用计算量与所需样本量均小的支持向量机、核方法等模型。直到近几年,GPU 在并行计算领域大放光彩,并被广泛的用于训练大规模深度神经网络,神经网络的颓势才得到了逆转,进而掀起了神经网络的第二次浪潮。
深度学习本质上只是一类庞大复杂的、层级深远的神经网络。其中既有卷积神经网络(CNN)这类传统基于监督学习的前馈神经网络,也有诸如深信度网络(DBN)、深度玻尔兹曼机(RBM)、自动编码机(Auto Encode)等半监督模型。随着技术的发展,深度学习在诸如Image Net等大样本复杂状况下显示出了无与伦比的性能。这很大程度上归功于,随着网络层级的增加,深度神经网络可以提取到人手工定义的特征很难触及的高级别特征。例如,对于卷积神经网络而言,卷积层的作用便是特征提取。随着卷积层的增加,图像信息也会由像素级别的特征、浅层特征逐渐提取至高级别深层特征。并且由于特征提取本身也是依靠神经网络自适应得到,避免了人在复杂陌生情况下难以选择合适特征的问题。因此,深度神经网络的泛化性能远不是SVM 或浅层神经网络等模型可以比拟的。
2012年的ImageNet 竞赛中,Alex Krizhevshy 等人利用卷积神经网络,在ILSVRC-2012 数据集上取得了远超前人的成绩,这标志着卷积神经网络迎来了它的大发展时期。由于Fine-tune技术以及GPU集群的广泛运用,卷积神经网络一定程度上克服了长久以来的训练困难,样本需求量大的缺点。自此,CNN成为了当前的研究热点,并在各个领域不断取得超越前人的成绩。
深度学习技术被广泛的运用在图像识别与自然语言理解领域。微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅,其内在的核心算法便是深度神经网络。而在非图像语音领域,深度学习技术也取得了不错的成果。谷歌研究院的围棋机器人Alpha Go,在其棋局评估器上便使用了深度学习技术中的卷积神经网络,对棋局进行估计。