CNN经典论文研读之VGG网络及其tensorflow实现-神经网络-技术-爱吧机器人网

CNN经典论文研读之VGG网络及其tensorflow实现

2018-08-17 数据科学家养成记浏览量：

在前两期的论文研读中，笔者和大家一起学习了 LeNet-5 和 AlexNet 这两个经典的卷积神经网络结构和基本实现方式。今天我们继续 CNN 经典论文研读之路——VGGNet。VGGNet 是牛津大学计算机视觉组（Visual Geometry Group）和谷歌 DeepMind 一起研究出来的深度卷积神经网络，因而冠名为 VGG。在2014年的 ILSVRC 中取得了第二名的成绩，可能你会问这么厉害的网络为什么不是第一名，因为当年实际提交 VGG 版本时作者并未作进一步的优化，而当年的第一名则是我们后面要继续研读的 Google Inception Net。

相较于之前的 LeNet-5 和 AlexNet，VGGNet 结构中大量使用 3x3 的卷积核和 2x2 的池化核，首次将卷积神经网络的卷积深度推向更深，最为典型的 VGGNet 是 VGG16 和 VGG19，其中的 16 的含义即网络中包含16个卷积层和全连接层， 19即即网络中包含19个卷积层和全连接层。VGGNet 的网络虽然开始加深但其结构并不复杂，但作者的实践却证明了卷积网络深度的重要性。深度卷积网络能够提取图像低层次、中层次和高层次的特征，因而网络结构需要的一定的深度来提取图像不同层次的特征。

VGG的网络结构

在论文中，作者使用了 A-E 五个不同深度水平的卷积网络进行试验，从A到E网络深度不断加深：

各结构网络所含训练参数：

其中 D 和 E 即我们常说的 VGG16 和 VGG19。可以看到 VGG16 网络需要训练的参数数量达到了 1.38 亿个，这个数量是巨大的。我们以 VGG16 为例简单探究一下它的网络结构。
VGG16 各层的结构和参数如下：
C1-1层是个卷积层，其输入输出结构如下：
输入： 224 x 224 x 3 滤波器大小： 3 x 3 x 3 滤波器个数：64
输出： 224 x 224 x 64
C1-2层是个卷积层，其输入输出结构如下：
输入： 224 x 224 x 3 滤波器大小： 3 x 3 x 3 滤波器个数：64
输出： 224 x 224 x 64
P1层是C1-2后面的池化层，其输入输出结构如下：
输入： 224 x 224 x 64 滤波器大小： 2 x 2 滤波器个数：64
输出： 112 x 112 x 64
C2-1层是个卷积层，其输入输出结构如下：
输入： 112 x 112 x 64 滤波器大小： 3 x 3 x 64 滤波器个数：128
输出： 112 x 112 x 128
C2-2层是个卷积层，其输入输出结构如下：
输入： 112 x 112 x 64  滤波器大小： 3 x 3 x 64 滤波器个数：128
输出： 112 x 112 x 128
P2层是C2-2后面的池化层，其输入输出结构如下：
输入： 112 x 112 x 128 滤波器大小： 2 x 2 滤波器个数：128
输出： 56 x 56 x 128

C3-1层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 128  滤波器大小： 3 x 3 x 128 滤波器个数：256
输出： 56 x 56 x 256
C3-2层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：256
输出： 56 x 56 x 256
C3-3层是个卷积层，其输入输出结构如下：
输入： 56 x 56 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：256
输出： 56 x 56 x 256
P3层是C3-3后面的池化层，其输入输出结构如下：
输入： 56 x 56 x 256 滤波器大小： 2 x 2 滤波器个数：256
输出： 28 x 28 x 256
C4-1层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 256  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
C4-2层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 512  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
C4-3层是个卷积层，其输入输出结构如下：
输入： 28 x 28 x 512  滤波器大小： 3 x 3 x 256 滤波器个数：512
输出： 28 x 28 x 512
P4层是C4-3后面的池化层，其输入输出结构如下：
输入： 28 x 28 x 512 滤波器大小： 2 x 2 滤波器个数：512
输出： 14 x 14 x 512

C5-1层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
C5-2层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
C5-3层是个卷积层，其输入输出结构如下：
输入： 14 x 14 x 512  滤波器大小： 3 x 3 x 512 滤波器个数：512
输出： 14 x 14 x 512
P5层是C5-3后面的池化层，其输入输出结构如下：
输入： 14 x 14 x 512 滤波器大小： 2 x 2 滤波器个数：512
输出： 7 x 7 x 512
F6层是个全连接层，其输入输出结构如下：
输入：4096
输出：4096
F7层是个全连接层，其输入输出结构如下：
输入：4096
输出：4096
F8层也是个全连接层，即输出层，其输入输出结构如下：
输入：4096
输出：1000
大致过程如 NG 老师的演示图：

从上述的 VGG 结构分析中，我们可以看到这种网络结构非常规整，2-2-3-3-3的卷积结构也非常利于编程实现。卷积层的滤波器数量的变化也存在明显的规律，由64到128再到256和512，每一次卷积都是像素成规律的减少和通道数成规律的增加。

VGG16 的简单实现

原本自己利用 Tensoflow 简单写了个 VGG16 的网络结构，但去谷歌一搜发现别人的代码写的实在太好了，以至于这里就不用自己代码展示 VGG16 了。编写的思路无非就是定义卷积过程、池化过程和全连接过程，然后将其封装到 VGG16 的模型函数中去，其中注意一些编写细节即可。
笔者自己写的部分代码截图：

GitHub 上大佬的开源实现：

https://gist.github.com/ksimonyan/211839e770f7b538e2d8#file-readme-md

参考资料：
https://www.coursera.org/learn/machine-learning
https://www.deeplearning.ai/
https://gist.github.com/ksimonyan/211839e770f7b538e2d8#file-readme-md
黄文坚 tensorflow实战

精选推荐

麻省理工又秀神技：推出如魔法般跳跃的方块机器人集群

[2019-10-31] 几天前，小编向大家介绍过麻省理工（MIT）研发的一种自组装机器人集群（点此阅览），它们可以用统一标准的小单元自动组装出各种大型结构。 ...

人工智能民主化能否实现取决于科技巨头

[2017-12-29] 我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词，民主化。但这些公司如何界定“民主化”还不清楚，像AI本身一样，它似乎有点炒作的味道...

农业将为高科技行业农业机器人的应用领域

[2017-12-17] 农业正在迅速成为一个令人兴奋的高科技产业，吸引了新专业人士，新公司和新投资者。技术发展迅速，不仅提高了农民的生产能力，而且促进了我们所知道的机器人和自动化技术的发展。...

深度神经网络揭示了大脑喜欢看什么

[2019-11-06] 爱吧机器人网编者按：近日，《自然-神经科学》发表了一篇论文，研究人员创建了一种深度人工神经网络，能够准确预测生物大脑对视觉刺激所产 ...

MIT研制出可以像植物一样生长的机器人

[2019-11-09] 麻省理工学院开发了一种新型机器人，这种机器人可以本质上自我延伸，其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是，研究人员 ...

美国Natilus公司试飞水上无人货机设计简单成本降低

[2017-12-28] Natilus创业公司成立于2014年，其梦想是建造大型无人机，以半价提供比船舶快得多国际货运。在十二月份，Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23] 谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月，虽然遭到竞争对手的质疑，但就 ...

南加州大学机器人学家：机器人更适合粗暴的爱

[2019-11-07] 图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱，当人类粗暴的将物体从机器人手中敲掉，看似残忍，实际上却能帮助机器人找到最好的握持物 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

飞桨火力全开，重磅上线3D模型：PointNet++、PointRCNN！

[2020-03-26] 11 年前的「阿凡达」让少年的我们第一次戴上 3D 眼镜，声势浩大的瀑布奔流而下，星罗棋布飘浮在空中的群山，无一不体现着对生命的敬意， ...

从基础概念到数学公式，这是一份520页的机器学习笔记（图文并茂）

[2018-06-19] 近日，来自SAP（全球第一大商业软件公司）的梁劲（Jim Liang）公开了自己所写的一份 520 页的学习教程（英文版），详细、明了地介绍了机器学习中的相关概念、数学知识和各......

50行代码玩转生成对抗网络GAN模型！（附源码）

[2018-07-30] 本文为大家介绍了生成对抗网络（Generate Adversarial Network，GAN），以最直白的语言来讲解它，最后实现一个简单的 GAN 程序来帮助大家加深理解。...

神经网络和模糊逻辑的工作流

[2016-11-20] 行业观察神经网络和模糊逻辑的工作流 null 来源：神州数码erp　发布时间： 2009-10-14 9:06:01 关键词：工作流,协同,B2B,OA 　以下 ...

深度神经网络揭示了大脑喜欢看什么