计算机视觉领域前沿一览-神经网络-技术-爱吧机器人网

核心观点

计算机视觉技术方法与应用发展迅速。计算机视觉研究如何让计算机可以像人类一样去理解图片、视频等多媒体资源内容。例如用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等，并进一步处理成更适合人眼观察或进行仪器检测的图像。近些年在海量的图像数据集、机器学习(深度学习)方法以及性能日益提升的计算机支持下，计算机视觉领域的技术与应用均得到迅速发展。

国内外众多知名机构在计算机视觉不同方向均有涉及，国内更是涌现出一批相关的明星创业团队。除了耳熟能详的Google、微软、Facebook等工业界科技巨头有所涉及之外，一些著名高校也设有专门的实验室，如斯坦福、麻省理工以及伯克利等。国内则涌现出一批以依图、商汤、旷视、云从以及格灵深瞳等为首的创业公司，技术团队核心成员大多拥有前述工业界及学术界知名机构的研究经验。

两大挑战赛与三大顶级会议引关注，揭示计算机视觉研究热点与技术进展。两大挑战赛分别基于ImageNet和MS COCO数据集。ImageNet数据集主要由斯坦福大学李飞飞教授团队牵头创建，比赛重在评测算法识别图像中显著物体的能力，MS COCO数据集主要由微软赞助，大赛更倾向于评测复杂场景中识别各类物体的能力。三大顶级会议分别为ICCV、CVPR、ECCV，近些年来接受的论文开始更多涉及到计算机视觉在工业界的创新应用，逐渐成为领域内前沿理论和技术的聚集地。

投资建议

建议关注计算机视觉在自动驾驶、机器人、AR/VR、金融、安防以及医疗等领域的应用进展。

风险提示

计算机视觉技术在实验室的表现结果不等于实际应用场景的效果，在不同领域的应用也存在差异，进度可能不达预期。

一、计算机视觉的发展现状与应用

1.1 从传统图片处理方法跨入人工智能处理时代

计算机视觉（Computer Vision）研究如何让计算机可以像人类一样去理解图片、视频等多媒体资源内容。例如用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等，并进一步处理成更适合人眼观察或进行仪器检测的图像。近些年在海量的图像数据集、机器学习(深度学习)方法以及性能日益提升的计算机支持下，计算机视觉领域的技术与应用均得到迅速发展。

①、传统的图片处理依据数字图像的基本特性进行处理，例如常见美图软件中的祛斑效果就属于图像处理中的图像增强部分。伴随着图像处理技术的不断提升，对于图像的简单处理已经不能满足人们的使用需求，模式识别便成为新的发展方向。

②、模式识别方法着眼于图像间的不同，使得计算机可以像人类一样很方便地分辨出两幅图片的差异。例如指纹识别就是模式识别中的一个经典应用。可以说模式识别已经踏入了人工智能的领域。

③、人工智能方法利用的是最新的卷积神经网络技术，自动生成足以区分不同图片的强大特征。迈入人工智能领域，可以说计算机视觉已经可以像人类一样去看，去理解。

尽管神经网络不断刷新着计算机视觉的表现成果，但对于人类来说依然是一个黑匣子，究竟是什么造就了神经网络的强大能力，尚需学术界、工业界进一步的探索与研究。

1.2 海量训练数据集解决计算机视觉瓶颈

计算机视觉的传统挑战是图片分类，即让计算机拥有可以识别图像中物体的能力。对于图片分类问题，计算机就像一个学生，需要人类为它提供图片和图片对应的标签来告诉计算机图片上究竟有什么。计算机虽然有强大的计算能力，但是却缺乏人类一样的智慧，需要给予大量有标注的图片。对于已有的数据集，目前传统的算法已经足够优秀。MNIST手写数字数据集的错误率已经达到0.3%。

计算机视觉的进一步发展需要新的图片数据集，但数据标注需要耗费大量人力物力，一般实验室很难完成如此艰巨的工作。直到现任斯坦福人工智能实验室和斯坦福视觉实验室主任李飞飞教授（近期公开宣布加入 Google并担任Google Cloud Machine Learning负责人）带领团队，于2007年发起、2009年创建完成的图像识别数据集ImageNet解决了这个问题。该数据集不仅图片种类达到惊人的1000种，同时每一类都含有超过1000张图片。新的海量数据集的出现挑战了计算机视觉的传统技术，推动了计算机视觉领域技术的发展，也让卷积神经网络一展所长。

1.3 深度学习方法提升计算机视觉准确度

目前计算机视觉领域最为流行也最为有效的技术是卷积神经网络。它是一种常见的深度学习架构，相比传统神经网络，卷积神经网络体积更小，能力更强。得益于现在强大的GPU并行运算能力，卷积神经网络已经由最开始的8层的AlexNet，到16层的VGGNet，再到152层ResNet，甚至更高，在ImageNet比赛中所取得的成绩也越来越优秀，自从2012年Hinton团队首次在该赛事中使用深度学习以来，Top5分类错误率已经从26.1%降低到不足3%。

1.4 计算机视觉在众多领域得到应用

计算机视觉作为人工智能的研究方向之一，主要目的在于使得计算机能识别、分辨甚至理解不同的图像、视频及复杂场景。在自动驾驶、机器人、AR/VR、金融、安防以及医疗领域均得到应用。

二、知名研究机构和创业团队

2.1 国外研究机构和学术达人

国外计算机视觉相关的研究，除了耳熟能详的Google、微软、Facebook等工业界科技巨头有所涉及之外，一些著名高校也设有专门的实验室，如斯坦福、麻省理工以及伯克利等。

2.2 国内知名创业团队

依图科技
依图科技创立于2012年，从图像识别入手，首先与全国省市级公安系统合作，对车辆品牌、型号等进行精准识别，随后扩展到人像识别，通过静态人像比对技术和动态人像比对技术，协助公安系统进行人员身份核查、追逃、监控、关系挖掘等。

近些年来依图科技的产品已经应用到全国二十多个省市地区的安防、智慧城市和健康医疗等领域，协助政府构建“城市大脑”，也希望将医疗领域的巨大知识鸿沟缩小，改善医患体验。

商汤科技

SenseTime商汤科技成立于2014年，致力于引领人工智能核心“深度学习”技术突破，构建人工智能、大数据分析行业解决方案。聚集了当下华人中深度学习、计算机视觉科学家，以及来自于谷歌、百度、微软、联想等一批产业界的领军人物。

公司在2014年已经在人脸识别和物体识别上分别超过了 Facebook和Google，并在同年获得风投千万美元注资。目前，已经开始对外提供人脸识别技术及集成了人脸识别、危险品识别、行为检测、车辆检测等的安防监控系统。在业务上，主要深耕金融、移动互联网、安防监控三大行业。

旷视科技
旷视科技成立于2011年，公司专注于人脸识别技术和相关产品应用研究，2012年9月推出视觉服务平台Face++0.9版本。面向开发者提供服务，能提供一整套人脸检测、人脸识别、人脸分析以及人脸3D技术的视觉技术服务，主要通过提供云端API、离线SDK、以及面向用户的自主研发产品形式，将人脸识别技术广泛应用到互联网及移动应用场景中。Face++与众多互联网公司合作，并通过“脱敏”技术掌握了500万张人脸图片数据库，互联网图片人脸识别LFW准确率达到99.6%，合作伙伴包括阿里、360等一批图片、社交、设备类企业。

云从科技
云从科技成立于2015年，专注于计算机视觉与人工智能，核心技术源于四院院士、计算机视觉之父——ThomasS.Huang黄煦涛教授。核心团队曾于2007年到2011年6次斩获智能识别世界冠军，得到上市公司佳都科技与香港杰翱资本的战略投资。公司主要技术团队来自中国科学院重庆分院，是中科院研发实力最雄厚的人脸识别团队，并作为中科院战略性先导科技专项的唯一人脸识别团队代表参与了新疆喀什等地安防布控。

格林深瞳

格灵深瞳成立于2013年，自主研发的深瞳技术在人和车的检测、跟踪与识别方面居于世界领先水平。公司借助海量数据，让计算机像人一样看懂这个世界，实时获取自然世界正在发生的一切，打造自然世界的搜索引擎，目前公司产品在金融、零售、公安、司法及智能交通等领域均有应用。

三、两大挑战赛

计算机视觉领域比较知名的两大挑战赛分别是ImageNet和MS COCO。ImageNet数据集主要由斯坦福大学李飞飞教授团队牵头创建，比赛重在评测算法识别图像中显著物体的能力。深度学习算法正是在2012年ImageNet大赛将分类错误率从传统方法26.1%降到16.4%而引起业界的广泛关注。MS COCO数据集主要由微软赞助，大赛更倾向于评测复杂场景中识别各类物体的能力。

3.1 ImageNet

ImageNet竞赛（全称ImageNet Large Scale Visual Recognition Challenge，即ILSVRC）一直被誉为国际计算机视觉领域的“奥林匹克”，历次竞赛结果对工业界以及学术届都会产生深远的影响，并且作为风向标指引着未来计算机视觉的发展方向。ImageNet一直吸引诸多活跃的顶尖研究团队参与其中，不断刷新各比赛项目的记录。

今年ImageNet 2016分为五大部分，包括目标检测、目标定位、视频中目标物体检测、场景分类、场景分割。与去年相比今年增加了一项场景分割任务。这五类任务都是计算机视觉领域基础的人工智能任务，有广阔的工业应用前景。五项任务提供了基础的训练集和测试集，各参赛队伍在训练集上训练，在测试集上完成测试，提交测试结果，然后由组委会统一评估性能并给出排名。

ImageNet 2016 已于 9 月份宣布结果，共计 85 只参赛队伍， 344 次提交，同比增长超过一半。目标检测的 mAP（综合衡量检测召回率+准确率的指标，下同）从去年的 62.07%提升到 66.27%；定位错误从 9.02%降到 7.71%，top5 分类错误率从 3.57%降到 2.99%；视频检测的 mAP 从 67.82%提升到 80.83%；场景分类有 28 个队伍， 92 次提交， top5 分类错误率从16.87%降低到 9.01%；场景分割有 23 个队伍， 80 次提交，最后的平均性能 57.21%。本次比赛中来自中国学术界和工业界团队包揽了多项冠军。

①、目标检测：该项任务在于考核选手所提供的算法模型能够从4万张图像中准确检测到200类物体的具体位置，并且一幅图像往往包含多个不同类别的物体。ImageNet的物体检测挑战对技术能力要求极高：200类物体在颜色、纹理、形状、长宽比、形变等方面差异巨大；即便属于同一类别，光线、角度、遮挡、部件变形扥因素也使得物体间存在显著的差异。这些都要求通过深度学习得到的特征表达具有强大的视觉描述能力，不仅能够区分不同类别的物体和复杂背景，还要对同一类别物体的辨别能力有稳定的表现。

②、目标定位：要求选手所设计的图像系统能准确定位来自Flickr和搜索引擎的15万张图片，并把图片划入1000个物体分类（狼蛛、iPod、清真寺、玩具店、调制解调器等），错误率越低越好。

③、视频中的目标物体检测：需要在运动的连续视频中检测物体位置、同时识别物体类别，其对于工业界有很强的的实用价值。该任务有30个基本类别，是目标检测任务200个基本类别的子集。这些精心选择的类别考虑到运动类型，视频背景干扰，平均目标数目等不同因素，所有类别在每一帧上都有标签。

④、场景分类：目的是识别照片中描述的场景类别。该任务数据来源于Places2数据集（包括1000w+图像，属于400+ 不同场景类别）。特别地，比赛数据分为810w训练图像和2w张验证图像，38.1w张测试图像，均属于401个场景类别。正如这些场景在现实中出现的频率不同，不同类别图像数量分布也不均匀，从4000张到3w张不等。对每张图片，算法应产生5个场景类别的列表（按照置信率降序排列），标签质量将使用图片最佳匹配真实标签评估。因为很多环境有多个标签（一个酒吧也是一个餐馆），人也常常用不同词语描述同一个地方（森林，树丛），因而比赛中允许一个算法对一张图识别多种场景类别。

⑤、场景分割：目的是将一张图片分割成分属不同静态类别的图片区域，例如天空，马路，人或者床等。该任务的数据来自于ADE20K数据集（包括2W+图像，总共150种静态类别）。

场景分类和分割技术，对于视频产业及其应用领域有比较重要的应用价值。基于对场景的理解有助于系统对于视频中的信息理解和应用。一方面，可以让系统根据场景适配算法，另一方面，也可以让系统更好的理解视频中所产生的信息。例如，当系统检测到视频中有人在奔跑，系统理解到奔跑事件所发生的环境，是在步行街或者是在学校，就可以采用不同的应对策略。而目标检测、分类、跟踪及定位技术是计算机视觉领域的基础算法，可以应用于许多领域。例如，自动驾驶、机器人、智能摄像机、智能手机等，只要系统中有视觉传感器，需要视觉传感器从视频图像中提取信息，这些技术都是必不可少的。

3.2 MS COCO

MS COCO图像识别比赛（全称Common Objects in Context Detection Challenge），COCO 2016分为三大部分，包括：目标检测和分割(object detection and segmentation), 关键点检测(keypoints)和图片描述(captions)。

①、目标检测和分割：该项任务要求参赛者对于20000张以上的图片数据集，能够准确的检测其属于80个类别的哪一类，并将其从图片中分割出来，并且一幅图像往往包含多个不同类别的物体。

②、关键点检测：目的是对于复杂不可控的场景中人类关键点进行准确定位。数据集中大部分人都是中等或大尺寸的人像，在10万以上的人群中超过一百万的关键点。

③、图片描述：该项比赛任务在于对一张给定图片，参赛者通过自己设计的算法系统给出五句描述，评估时则从三个角度进行考量：对于图片细节的把握，与人工描述比较的好坏以及系统是否通过图灵测试。从2015年的比赛结果来看，表现最好的两支队伍分别来自谷歌和微软亚洲研究院，但与人类的表现基准线依然存在明显的差距。

四、三大顶级会议

4.1 三大会议的介绍

ICCV

ICCV全称是 IEEE International Conference on Computer Vision，国际计算机视觉大会，是计算机方向的三大顶级会议之一，通常每两年召开一次，2005年10月曾经在北京召开。会议收录论文的内容包括：底层视觉与感知，颜色、光照和纹理处理，分割与聚合，运动与跟踪，立体视觉与运动结构重构，基于图像的建模，基于物理的建模，视觉中的统计学习，视频监控，物体、事件和场景的识别，基于视觉的图形学，图片和视频的获取，性能评估，具体应用等。会议的收录率较低，以 2007 年为例，会议共收到论文1200余篇，接受的论文仅为244篇。

CVPR

CVPR全称是IEEE Conference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议。CVPR是IEEE一年一度的学术性会议，会议的主要内容是计算机视觉与模式识别技术。近年来每年有约1500名参加者，收录的论文数量一般300篇左右。第一届CVPR会议于1985年在旧金山举办，后面每年都在美国本土举行。在各种学术会议统计中，CVPR被认为有着很强的影响因子和很高的排名。

ECCV

ECCV全称是European Conference on Computer Vision，欧洲计算机视觉国际会议，两年一次。每次会议在全球范围录用论文300篇左右，主要的录用论文都来自美国、欧洲等顶尖实验室及研究所，中国大陆的论文数量一般在10-20篇之间。ECCV2010的论文录取率为27%。

4.2 会议亮点回顾

CVPR是计算机视觉最大的年度聚会，今年收到投稿2,145份，接受论文643篇，接收率29.9%。与会人数增加近30％达到3,600人，表明计算机视觉在学术界和工业界得到越来越多的关注。而且此次会议接受的643篇文章中深度学习再次占据了半壁江山。会议内容涉及机器人、无人机、VR、AR、自动驾驶、生物医疗、工业自动化和检测等众多领域，逐渐成为计算机视觉前沿理论和技术的聚集地。

给机器“看电视剧”预测人类行为

CVPR2016上，麻省理工学院计算机科学和人工智能实验室(CSAIL)发布一份关于可预测人类行为的算法的研究报告。通过给此算法导入近600小时的电视秀(包括《生活大爆炸》《绝望主妇》《办公室》等剧集)，来测试机器是否能准确预测人类在各场景互动中的行为。

基于深度学习的手势识别：能够用于VR交互

来自于美国普渡大学C Design 实验室的研究成果——DeepHand(深度手势识别)，基于“深度学习”解析人手塑造的角度和扭曲等动作，可以在未来加强VR设备的交互上有广泛应用前景。

微软全息“穿越”技术

HoloPortation将人物全息图像投射到另一个房间，使该房间内的人可以和全息影像实时互动，系统通过追踪人物身体的高质量细节，重建每一个特征。

人工智能为视频配音

CVPR上来自麻省理工学院的算法演示他们将如何精准预测声音。当研究员将一个击打物品的短视频交给算法，算法就可以生成一个打击的声音，真实到可以糊弄住观看视频的人类。

深度学习识别YouTube视频内容

迪尼斯研究院和复旦大学在CVPR大会上展示了如何用深度学习自动识别刚刚上传到YouTube视频里正在发生的事情，帮助开发原先视频上传后丢失的大部分有潜在价值信息。

社会化行走机器人Jackrabbot

斯坦福大学的研究人员制造了一个叫Jackrabbot的原型机器人，希望能够自行在街道上行走，又不会与其他行人碰到。

风险提示

计算机视觉技术在实验室的表现结果不等于实际应用场景的效果，在不同领域的应用也存在差异，进度可能不达预期。

分析师申明

每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明：

分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断；分析师薪酬的任何组成部分无论是在过去、现在及将来，均与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。

此文整理自网络，不代表本公众号观点

计算机视觉领域前沿一览

本周栏目热点