爱吧机器人网 » 技术 > 机器学习 > 正文

深度学习反向传播算法(BP)原理推导及代码实现

昨天,分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,便是利用反向传播(BP)算法求权重参数的梯度,偏置量的梯度。下面根据以下几个问题展开BP算法:
 
什么是BP算法?
为什么叫做反向传播?
如何构思BP算法的切入点?
误差是如何传播开的?
如何求出权重参数的梯度和偏置量的梯度?
链式规则是怎么一回事?
 
1、统一符号表达
 
神经网络每个神经元的连接关系,用符合如何表达呢? 下面定义一种表达方式,如下图所示,含有一个隐含层的神经网络,图中标出的w的含义为:第三层的第2个神经元与第二层的第4个神经元间的权重参数。

\
 
再看下,标红色箭头的神经元的偏移量 b,如图所示进行标记,第二层中第3个神经元的偏移量;标绿色箭头的神经元的输出 a 为如下图所示标记,为第三层中第一个神经元的输出。

\
 
第 L 层第 j 个神经元的输出等于,前1层即 L-1 层中所有神经元的带权的输入和,然后再映射到sigmoid激活函数中,得到如下公式所述:

\
 
一定要仔细理解这种上述公式的各个符号表达,它是理解以下对 BP 算法论述的前提。
 
2、BP算法推导
 
2.1 公式1
 
如下图所示,有个精灵跑到了网络中,假设位于第L层,第 j 个神经元的门口处,它引起了一点扰动,\
 
\
 
z的含义是加权输入项,容易得出这个扰动项对成本函数造成的损失可以定义为:
\
 
那么,类推的,可以看出在输出层 L, 误差项的定义表达为如下,第一个公式

\
 
上式是根据链式规则可以推导得出,成本函数的改变首先是有第L层第j个神经元的输出项影响的,然后第 j 个神经元的输出又受到第 L层第 j 个神经元的干扰 z 影响,因此得到上式。这个式子的意义是定义了第 L层第 j个神经元的误差项怎么求,注意这里L可是输出层哦,那么如何求出第 L-1层中某个神经元的损失项(误差项)呢?
 
2.2 公式2
 
这就用到第二个公式,它给出了怎么由第 L层的误差推导出第L-1层的误差,先给出第二个公式:

\
 
那么,这个公式,是如何得出的呢?这里面,这个公式是相对最难想的,推导过程如下:
还是从损失项的定义入手,

\
 
由以上这几个式子,就可以得出公式2 。
 
2.3 公式3
 
那么有了以上的分析,我们便能求解处任意层的损失项了,可以得出成本函数对某层某个神经元的梯度为,这是第三个公式:

\
 
还是可以由链式规则得出吧,如下推导过程:

\
 
2.4 公式4
 
成本函数对权重参数的梯度为,这是第四个公式:

\
 
那么这个公式还是可以由链式规则得出,对其推导如下:

\
 
推导第三,四个公式,都用到了以下这个基本知识:

\
 
2.5 反向传播代码
 
根据这四个公式,可以得出BP算法的代码,每个步骤将公式放到上面,方便查看。
 
def backprop(self, x, y):
 
01 占位
 
        nabla_b = [np.zeros(b.shape) for b in self.biases]
 
        nabla_w = [np.zeros(w.shape) for w in self.weights]
 
02  前向传播求出每个神经元的输出项
 
        activation = x
 
        activations = [x] # 分层存储每层的输出项(对应上文中的 a)
 
        zs = [] # 分层存储每层的 z 向量(对应上文中的 z)
 
        for b, w in zip(self.biases, self.weights):
 
            z = np.dot(w, activation)+b
 
            zs.append(z)
 
            activation = sigmoid(z)
 
            activations.append(activation)       
 
            \#activations[-1] 必须是最后一层
 
        delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(zs[-1])
 
  03 求偏置量的梯度 

\
 
        nabla_b[-1] = delta
 
  04 求权重参数的梯度        

\
 
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())
 
  05 反向传播,依次更新每层的每个神经元的权重和偏移量 
 
        # L = 1 表示最后一层神经元, L = 2 倒数第二层神经元
 
        for layer in range(2, self.num_layers):
 
            z = zs[-layer]
 
            sp = sigmoid_prime(z) #sigmoid函数的导数

\
 
            delta = np.dot(self.weights[-layer+1].transpose(), delta) * sp
 
            nabla_b[-layer] = delta
 
            nabla_w[-layer] = np.dot(delta, activations[-layer-1].transpose())
 
        return (nabla_b, nabla_w)
 
 def cost_derivative(self, output_activations, y):
\
 
        return (output_activations-y)
 
以上就是BP算法的详细推导过程。



上一篇:【NIPS最佳论文出炉】冷扑大师能战胜AlphaZero吗?No(Science论文)
下一篇:顶级AI会议NIPS压轴2017(附PPT、视频、代码大汇总)
精选推荐
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

17世纪的莱布尼茨试图制造“思想机器”却被现实打脸
17世纪的莱布尼茨试图制造“思想机器”却被现实打脸

[2019-11-05]  莱布尼茨,德国哲学家、数学家、律师,历史上少见的通才1666年,德国博学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)发 ...

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......