深度学习近年来在多个领域取得了重要突破,尽管理论上并没有解释清楚深度学习的机制,但已在大量领域取得了巨大成功。在图像分类方面,微软研究团队指出他们的系统在ImageNet 2012分类数据集中的错误率降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据包含约120万张训练图像、5万张测试图像,分为1000个不同的类别。在人脸识别领域,香港中文大学教授汤晓鸥、王晓刚及其研究团队研发的DeepID在LFW数据库上获得了99.15%的识别率。LFW是人脸识别领域使用最广泛的测试基准。实验表明,仅仅给出人脸中心区域,人肉眼在LFW上的识别率为97.52%。
在一些实际应用场景中,业界已经充分展现了深度学习在人脸识别领域取得的成就,比如在2015年IT和通信产业盛会GeBIT上,马云向德国总理默克尔与中国副总理马凯,演示了蚂蚁金服的Smile to Pay 扫脸技术,为嘉宾从淘宝网上购买了1948年汉诺威纪念邮票。
更不可思议的是,基于深度学习模型的人工智能能够自学成才成为游戏高手。2013年11月,DeepMind公司发表的一篇论文描述了一个单个的网络,它能够自我学习从而自动地玩一些老的电视游戏。它仅仅通过屏幕上的图像和游戏中的分数是否上升下降,从而做出选择性的动作。正因为深度学习取得了如此多的成就,业界很多观点认为,由于深度学习的出现,我们距离人工智能的时代已经不遥远了。
那么到底什么是深度学习呢?深度学习的深度一词直接指明了其特点。尽管没有标准的定义,但是如果一个模型具有典型的层次化结构,且方法的效果随着层次的增加能够显著提升,那么大家都乐意把这个方法加个前缀“深度”。比如经典的神经网络,其典型的结构就是层次化,每一层有一系列的神经元构成,神经元的输入是下层神经元的输出。最底层是原始的输入信号,最顶层是输出信号,也就是所谓的特征表示。
过去并没有被赋予深度网络的说法,但随着Hinton在《科学》发表文章指出,如果把神经网络加深而不是加宽,那么这个网络会取得很好的效果。这一现象是深度学习的基本由来,大家逐渐习惯于用深度一词来刻画模型的特点。
经典的深度学习有深度卷积网络(CNN)、深度置信网络(DBN)等模型。这些模型具有很强的分层结构,能够自动地学习每层的特征。与传统的浅层模型相比,深度分层网络结构中多层次的非线性运算操作,使得深度学习具有更强的拟合能力。
尽管深度学习的应用非常成功,但是深度学习的理论进展却很小。2006年以来,Hinton、Yoshua Bengio、Yann Lecun等人的相关工作,奠定了深度学习在机器人学习中的地位。之后,深度学习在理论上发展非常缓慢,近年来的研究成果也并没有能够很清楚地解释理论问题。当然,所谓理论问题是相对传统的一些工作而言,在传统的一些模型中,研究者们能够确定一个问题是否可解、解是否唯一、求解的过程是否收敛、什么时候能够收敛。
就目前看,深度学习的理论不能揭示这些答案,大家所知道的一些结论大多是让人比较沮丧的,比如高度非线性、非凸问题、容易过拟合等等。没有统一的理论可以指导网络分多少层、初始化参数如何设置、正则化如何更加有效等。不过可能正是这种理论上目前很难解释清楚的复杂性,使得神经网络在很多问题上都能够表现得非常优秀。
1 2 下一页>