- 有关神经网络的部分可以查看这里的
BP神经网络的部分:https://github.com/lawlite19/MachineLearning_Python
- 典型的深度学习模型就是很深层的神经网络,包含多个
隐含层,多隐层的神经网络很难直接使用BP算法进行直接训练,因为反向传播误差时往往会发散,很难收敛 CNN节省训练开销的方式是权共享weight sharing,让一组神经元使用相同的权值- 主要用于图像识别领域
-
卷积核(Convolution Kernel),也叫过滤器filter,由对应的权值W和偏置b体现 -
下图是
3x3的卷积核在5x5的图像上做卷积的过程,就是矩阵做点乘之后的和 enter description here
第i个隐含单元的输入就是:$${W_{\rm{i}}}{x_{small}} + {b_i}$$,其中$${x_{small}}$$就时与过滤器filter过滤到的图片 -
另外上图的步长
stride为1,就是每个filter每次移动的距离 -
卷积特征提取的原理
-
卷积特征提取利用了自然图像的统计平稳性,这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。
-
当有多个
filter时,我们就可以学到多个特征,例如:轮廓、颜色等 -
多个过滤器
filter(卷积核) -
一张图片有
RGB三个颜色通道,则对应的filter过滤器也是三维的,图像经过每个filter做卷积运算后都会得到对应提取特征的图像,途中两个filter:W0和W1,输出的就是两个图像 -
这里的步长
stride为2(一般就取2,3) -
在原图上添加
zero-padding,它是超参数,主要用于控制输出的大小 -
同样也是做卷积操作,以下图的一步卷积操作为例:
与w0[:,:,0]卷积:0x(-1)+0x0+0x1+0x1+0x0+1x(-1)+1x0+1x(-1)+2x0=-2
与w0[:,:,1]卷积:2x1+1x(-1)+1x1=2
与w0[:,:,2]卷积:1x(-1)+1x(-1)=-2
最终结果:-2+2+(-2)+1=-1(1为偏置) enter description here
- 也叫做下采样
Pooling过程- 把提取之后的特征看做一个矩阵,并在这个矩阵上划分出几个不重合的区域,
- 然后在每个区域上计算该区域内特征的均值或最大值,然后用这些均值或最大值参与后续的训练
enter description here
-下图是使用最大
Pooling的方法之后的结果 enter description here Pooling的好处- 很明显就是减少参数
Pooling就有平移不变性((translation invariant) 如图feature map是12x12大小的图片,Pooling区域为6x6,所以池化后得到的feature map为2x2,假设白色像素值为1,灰色像素值为0,若采用max pooling之后,左上角窗口值为1 enter description here
将图像右移一个像素,左上角窗口值仍然为1
enter description here
将图像缩放之后,左上角窗口值仍然为1
enter description herePooling的方法中average方法对背景保留更好,max对纹理提取更好- 深度学习可以进行多次卷积、池化操作
- 在每次卷积操作之后一般都会经过一个非线性层,也是激活层
- 现在一般选择是
ReLu,层次越深,相对于其他的函数效果较好,还有Sigmod,tanh函数等 enter description here sigmod和tanh都存在饱和的问题,如上图所示,当x轴上的值较大时,对应的梯度几乎为0,若是利用BP反向传播算法, 可能造成梯度消失的情况,也就学不到东西了
- 将多次卷积和池化后的图像展开进行全连接,如下图所示。 enter description here
- 接下来就可以通过BP反向传播进行训练了
- 所以总结起来,结构可以是这样的 enter description here
- 看到知乎上的一个回答还不错:https://www.zhihu.com/question/52668301
- 每个过滤器可以被看成是特征标识符
( feature identifiers) - 如下图一个曲线检测器对应的值
enter description here - 我们有一张图片,当过滤器移动到左上角时,进行卷积运算
enter description here - 当与我们的过滤器的形状很相似时,得到的值会很大 enter description here
- 若是滑动到其他的部分,可以看出很不一样,对应的值就会很小,然后进行激活层的映射。
enter description here - 过滤器
filter的值怎么求到,就是我们通过BP训练得到的。
- 代码和说明放到了另外一个
Tensorflow学习的仓库里了 - 全部代码:https://github.com/lawlite19/MachineLearning_TensorFlow/blob/master/Mnist_03_CNN/mnist_cnn.py
- 说明部分(第七部分):https://github.com/lawlite19/MachineLearning_TensorFlow
- 参考论文:http://cogprints.org/5869/1/cnn_tutorial.pdf
- 或者在这里查看:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/cnn_tutorial.pdf
- BP神经网络之前写过推导,可以查看这里的第三部分BP神经网络:https://github.com/lawlite19/MachineLearning_Python
- 我们假设CNN中每个卷积层下面都跟着一个Pooling池化层(下采样层)
- 文章的理解可能会有问题
l..................当前层- $${{M_j}}$$..................输入maps的集合
- up()..................上采样函数
- ᄋ....................表示对应每个元素相乘
β....................下采样对应的"权重"(定义为常量)- $${p_i^{l - 1}}$$...................$${{\rm{x}}_i^{l - 1}}$$中在卷积运算中逐个与$${k_{ij}^l}$$相乘的
patch - down()..................下采样函数
-
1)卷积层计算公式
-
$${\rm{x}}j^l = f(\sum\limits{i \in {M_j}} {{\rm{x}}i^{l - 1}*k{ij}^l + b_j^l} )$$
-
$${\rm{x}}_j^l$$ 表示第
l层的第j个feature map(特征图) -
可以对照到上面多个卷积核的例子看
-
j相当于是第几个卷积核 -
i相当于对应卷积核或是map的维度 -
2)卷积层梯度计算
-
paper中叫做使用BP计算当前层layer单元的灵敏度(sensitivity)
-
也就是误差的计算,之前我在BP神经网络中推导过,这里不再给出
-
当前层的第
j个unit的灵敏度$$\delta _{\rm{j}}^l$$结果就是:先对下一层的节点(连接到当前层l的感兴趣节点的第l+1层的节点)的灵敏度求和(得到$$\delta _{\rm{j}}^{l + 1}$$),然后乘以这些连接对应的权值(连接第l层感兴趣节点和第l+1层节点的权值)W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值 -
$$\delta _{\rm{j}}^l = \beta _j^{l + 1}({f^'}(u_j^l) \circ up(\delta _{\rm{j}}^{l + 1}))$$
-
下采样的"weights"可以定义为常量
β(可以查看下面Pooling层输出的表示) -
up表示上采样操作,因为我们之前假设每个卷积层之后跟着一个Pooling层,所以反向传播需要进行上采样 -
up上采样可以使用克罗内克积(Kronecker)实现,如果A是一个m x n的矩阵,而B是一个p x q的矩阵,克罗内克积则是一个mp x nq的矩阵,$$up({\rm{x}}) = {\rm{x}} \otimes {1_{n \times n}}$$ enter description here -
所以偏置的梯度为:$${{\partial E} \over {\partial {b_j}}} = \sum\limits_{u,v} {{{(\delta {\rm{j}}^l)}{uv}}} $$ (因为神经网络中对
b的梯度为:($${{\partial E} \over {\partial b}} = {{\partial E} \over {\partial u}}{{\partial u} \over {\partial b}} = \delta $$(δ就是误差,根据定义的代价函数E得来的),其中u为layer的输入:$${u^l} = {W^l}{{\rm{x}}^{l - 1}} + {b^l}$$) -
所以卷积核权值的梯度为:$${{\partial E} \over {\partial k_{ij}^l}} = \sum\limits_{u,v} {{{(\delta {\rm{j}}^l)}{uv}}(p_i^{l - 1})uv} $$ (其中:$${p_i^{l - 1}}$$为$${{\rm{x}}_i^{l - 1}}$$中在卷积运算中逐个与$${k_{ij}^l}$$相乘的
patch,因为权重的系数就是对应的patch,对权重求导,就是这个系数)
-
1)子采样层计算公式
-
$${\rm{x}}_j^l = f(\beta j^ldown({\rm{x}}{\rm{j}}^{l - 1}) + b_j^l)$$
-
乘以一个常数权重
β,再加上偏置,然后再调用激活函数(这里和上面的pooling的操作有所不同,但总的来数还是下采样的过程) -
2)梯度计算
-
和上面的其实类似,就是换成下一层对应的权重
k,rot180()是旋转180度,因为卷积的时候是将卷积核旋转180度之后然后在点乘求和的 -
对偏置
b的梯度与上面的一样 -
对于乘法偏置(文中叫 multiplicative bias)
β的梯度为:$${{\partial E} \over {\partial {\beta j}}} = \sum\limits{u,v} {{{(\delta {\rm{j}}^l \circ d_j^l)}{uv}}} $$,其中$$d_j^l = down({\rm{x}}_j^{l - 1})$$
- 参考论文:http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf
- 或者查看这里,我放在github上了:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Understanding%20the%20difficulty%20of%20training%20deep%20feedforward%20neural%20networks.pdf
- 这是2010年的论文,当时只是讨论的
Sigmoid,tanh和Softsign激活函数,解决深层神经网络梯度消失的问题,并提出了一种初始化权重weights的方法,但是对于ReLu激活函数还是失效的,下一篇再讲。
- 论文先是指出了
Sigmoid激励函数是不适合作为深度学习的激励函数的,因为它的均值总是大于0的,导致后面隐含层hidden layer的神经元趋于饱和
enter description here - 构建了含有4个隐层的神经网络,激活函数为
Sigmoid,观察每一层的激活值的均值和标准差的岁训练次数的变化情况,layer1表示第一个隐含层,一次类推。 - 初始化权重$${W_{ij}} \sim U[ - {1 \over {\sqrt n }},{1 \over {\sqrt n }}]$$,即服从均匀分布
- 如下图所示,实线表示均值mean value,垂直的条表示标准差。
- 因为使用的均匀分布进行的初始化,所以前几层x的均值近似为0,所以对应
Sigmoid函数的值就是0.5 - 但是最后一层layer4的输出很快就饱和了(激活值趋于0),训练到大100的时候才慢慢恢复正常
- 作者给出当有5个隐含层的时候,最后一层始终处于饱和状态
- 标准差反应的是数值的波动,可以看出后面才有了标准差的值
enter description here - 直观解释
- 最后使用的是
softmax(b+Wh)作为预测,刚开始训练的时候不能够很好的预测y的值,因此误差梯度会迫使Wh趋于0,所以会使h的值趋于0 h就是上一层的激活输出,所以对应的激活值很快降为0tanh激活函数是关于原点对称的,趋于0是没有问题的,因为梯度能够反向传回去。
enter description here
- 首先代价函数使用的是交叉熵代价函数,相比对于二次代价函数会更好,看下对比就知道了,二次代价函数较为平坦,所以使用梯度下降会比较慢。(图中
W1表示第一层的权重,W2表示第二层的权重)
enter description here - 以
tanh激活函数为例 - 符号说明
- $${z^i}$$....................................第i层的激活值向量
- $${{\rm{s}}^i}$$....................................第i+1层的输入
- x.......................................输入
- $${{\rm{n}}_i}$$......................................第i层神经元个数
- W....................................权重
- Cost....................................代价函数
- 所以第
i+1层的输入:
$${{\rm{s}}^i} = {z^i}{W^i} + {b^i}$$ - 激活之后的值表示:
$${z^{i + 1}} = f({s^i})$$, ❶根据BP反向传播可以得到:
$${{\partial Cost} \over {\partial s_k^i}} = {f^'}(s_k^i)W_{k, \bullet }^{i + 1}{{\partial Cost} \over {\partial {s^{i + 1}}}}$$❷权重的偏导(梯度)就为:
$${{\partial Cost} \over {\partial w_{l,k}^i}} = z_l^i{{\partial Cost} \over {\partial s_k^i}}$$- 还是BP反向传播的推导,可以查看我之前给的BP反向传播的推导。
- 它这里
W是从0开始的,所以对应可能不太一致。 tanh的导数为:
$${[\tanh (x)]^'} = 1 - {[\tanh (x)]^2}$$- 所以:$${f^'}(0) = 1$$
- 当$$s_k^i$$的很小时,可以得到:$${f^'}(s_k^i) \approx 1$$
- 这里实际上他是假设激励函数是线性的,下一篇论文中也有提到。
- 根据方差公式:
$$Var(x) = E({x^2}) - {E^2}(x)$$ 可以得到❸:
$$Var[{z^i}] = Var[x]\prod\limits_{j = 0}^{i - 1} {{n_j}Var[{W^j}]} $$,
推导如下: - $$Var(s) = Var(\sum\limits_i^n {{w_i}{x_i}} ) = \sum\limits_i^n {Var({w_i}{x_i})} $$
- enter description here(式子太长,直接截图的,没用LaTex解析)
- 因为输入的均值为0,可以得到:$$E(w) = E(x) = 0$$
- 所以:$$Var(wx) = Var(w)Var(x)$$,代入上面即可。
- 因为之前$${f^'}(s_k^i) \approx 1$$,所以可以得到
❹:
$$V{\rm{ar}}[{{\partial Cost} \over {\partial {s^i}}}] = Var[{{\partial Cost} \over {\partial {s^n}}}]\prod\limits_{j = i}^n {{n_{j + 1}}Var[{W^j}]} $$ - 将
❸❹代入到对权重w偏导❷(即为梯度)的方差为:$$Var[{{\partial Cost} \over {\partial {w^i}}}] = \prod\limits_{j = 0}^{i - 1} {{n_j}Var[{W^j}]} \prod\limits_{j = i}^{n - 1} {{n_{j + 1}}Var[{W^j}]} * Var[x]Var[{{\partial Cost} \over {\partial {s^n}}}]$$ - 对于正向传播,我们希望: $$\forall (i,j),Var[{z^i}] = Var[{z^j}]$$
- 对于反向传播,同样希望:$$\forall (i,j),Var[{{\partial Cost} \over {\partial {s^i}}}] = Var[{{\partial Cost} \over {\partial {s^j}}}]$$
- 两种情况可以转化为:
❺$${n_i}Var[{w^{\rm{i}}}] = 1$$和❻$${n_{i + 1}}Var[{w^{\rm{i}}}] = 1$$
(比如第一种:
,$$V{\rm{ar}}({z^i}) = Var(x)$$ ,所以 $${n_i}Var[{w^{\rm{i}}}] = 1$$,第二种情况同理) ❺❻两式相加得:
$$Var[{W^i}] = {2 \over {{n_i} + {n_{i + 1}}}}$$- 最后提出了一个归一化的初始化方法,因为W服从均匀分布
U[-c,c],根据均匀分布的方差公式得:
$${{{{[c - ( - c)]}^2}} \over {12}} = {{{c^2}} \over 3}$$ - 所以:$${2 \over {{n_i} + {n_{i + 1}}}} = {{{c^2}} \over 3}$$
- 求出,$$c = {{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }}$$
- 所以◆だいやまーく◆だいやまーく最终给出初始化权重的方法为:
$$W \sim U[ - {{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }},{{\sqrt 6 } \over {\sqrt {{n_i} + {n_{i + 1}}} }}]$$ - 这就是Xavier初始化方法
- 参考论文:https://arxiv.org/pdf/1502.01852v1.pdf
- 或者查看这里,我放在github上了:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/Delving%20Deep%20into%20Rectifiers%20Surpassing%20Human-Level%20Performance%20on%20ImageNet%20Classification%EF%BC%88S%E5%9E%8B%E5%87%BD%E6%95%B0%E6%9D%83%E9%87%8D%E5%88%9D%E5%A7%8B%E5%8C%96%EF%BC%89.pdf
- 目前
ReLu激活函数使用比较多,而上面一篇论文没有讨论,如果还是使用同样初始化权重的方法(Xavier初始化)会有问题 - PReLu函数定义如下:
- enter description here
- 等价于:$$f({y_i}) = \max (0,{y_i}) + {a_i}\min (0,{y_i})$$
- ReLu(左)和PReLu(右)激活函数图像
enter description here
- 符号说明
- ε..........................................目标函数
- μ..........................................动量
- α..........................................学习率
- f()....................................激励函数
- l..........................................当前层
- L..........................................神经网络总层数
- k..........................................过滤器
filter的大小 - c..........................................输入通道个数
- x..........................................
k^2c*1的向量 - d..........................................过滤器
filter的个数 - b..........................................偏置向量
- $${y_l} = {W_l}{{\rm{x}}_l} + {b_l}$$..............................................................(1)
- $${{\rm{x}}l} = f({y{l - 1}})$$
- $${{\rm{c}}l} = {d{l - 1}}$$
- 根据式
(1)得:
$$Var[{y_l}] = {n_l}Var[{w_l}{x_l}]$$..................................................(2) - 因为初始化权重
w均值为0,所以期望:$$E({w_l}) = 0$$,方差:$$Var[{w_l}] = E(w_l^2) - {E^2}({w_l}) = E(w_l^2)$$ - 根据式
(2)继续推导:
enter description here............................................(3) - 对于
x来说:$$Var[{x_l}] \ne E[x_l^2]$$,除非x的均值也是0, - 对于
ReLu函数来说:$${x_l} = \max (0,{y_{l - 1}})$$,所以不可能均值为0 w满足对称区间的分布,并且偏置$${b_{l - 1}} = 0$$,所以$${y_{l - 1}}$$也满足对称区间的分布,所以:
enter description here..........................................(4)- 将上式
(4)代入(3)中得:
$$Var[{y_l}] = {1 \over 2}{n_l}Var[{w_l}]Var[{y_{l - 1}}]$$.......................................................(5) - 所以对于
L层:
$$Var[{y_L}] = Var[{y_1}]\prod\limits_{l = 2}^L {{1 \over 2}{n_l}Var[{w_l}]} $$.....................................................................(6) - 从上式可以看出,因为累乘的存在,若是$${1 \over 2}{n_l}Var[{w_l}] < 1$$,每次累乘都会使方差缩小,若是大于
1,每次会使方差当大。 - 所以我们希望:
$${1 \over 2}{n_l}Var[{w_l}] = 1$$ - 所以初始化方法为:是
w满足均值为0,标准差为$$\sqrt {{2 \over {{n_l}}}} $$的高斯分布,同时偏置初始化为0
-
$$\Delta {{\rm{x}}_l} = \widehat {{W_l}}\Delta {y_l}$$....................................................(7)
-
当$$\widehat {{W_l}}$$初始化Wie对称区间的分布时,可以得到:$$\Delta {{\rm{x}}_l}$$的均值为0
-
△しろさんかくx,△しろさんかくy都表示梯度,即:
$$\Delta {\rm{x}} = {{\partial \varepsilon } \over {\partial {\rm{x}}}}$$,$$\Delta y = {{\partial \varepsilon } \over {\partial y}}$$ -
对于
ReLu函数,f的导数为0或1,且概率是相等的,假设$${f^'}({y_l})$$和$$\Delta {x_{l + 1}}$$是相互独立的, -
所以:$$E[{(\Delta {y_l})^2}] = Var[\Delta {y_l}] = {1 \over 2}Var[\Delta {x_{l + 1}}]$$...................................................(8)
-
根据
(7)可以得到:
enter description here -
将
L层展开得:
$$Var[\Delta {x_2}] = Var[\Delta {x_{L + 1}}]\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]} $$...........................................................(9) -
注意这里:$$\widehat {{n_l}} = k_l^2{d_l}$$,而$${n_l} = k_l^2{c_l} = k_l^2{d_{l - 1}}$$
-
所以$${{\rm{w}}_l}$$应满足均值为0,标准差为:$$\sqrt {{2 \over {\widehat {{n_l}}}}} $$的分布
-
对于正向和反向两种初始化权重的方式都是可以的,论文中的模型都能够收敛
-
比如利用反向传播得到的初始化得到:$$\prod\limits_{l = 2}^L {{1 \over 2}\widehat {{n_l}}Var[{w_l}]} = 1$$
-
对应到正向传播中得到:
enter description here -
所以也不是逐渐缩小的
-
实验给出了与第一篇论文的比较,如下图所示,当神经网络有30层时,Xavier初始化权重的方法(第一篇论文中的方法)已经不能收敛。
enter description here -
对于PReLu激励函数可以得到:$${1 \over 2}(1 + {a^2}){n_l}Var[{w_l}] = 1$$
-
当
a=0时就是对应的ReLu激励函数 -
当
a=1是就是对应线性函数
- 参考论文:http://jmlr.org/proceedings/papers/v37/ioffe15.pdf
- 或者查看这里,我放在github上了:https://github.com/lawlite19/DeepLearning_Python/blob/master/paper/%EF%BC%88BN%EF%BC%89Batch%20Normalization%20Accelerating%20Deep%20Network%20Training%20by%20Reducing%20Internal%20Covariate%20Shift.pdf
- 2015年Google提出的Batch Normalization
- 训练深层的神经网络很复杂,因为训练时每一层输入的分布在变化,导致训练过程中的饱和,称这种现象为:
internal covariate shift - 需要降低学习率Learning Rate和注意参数的初始化
- 论文中提出的方法是对于每一个小的训练batch都进行标准化(正态化)
- 允许使用较大的学习率
- 不必太关心初始化的问题
- 同时一些例子中不需要使用
Dropout方法避免过拟合 - 此方法在
ImageNet classification比赛中获得4.82% top-5的测试错误率
-
如果输入数据是白化的(whitened),网络会更快的收敛
-
白化目的是降低数据的冗余性和特征的相关性,例如通过线性变换使数据为0均值和单位方差
-
并非直接标准化每一层那么简单,如果不考虑归一化的影响,可能会降低梯度下降的影响
-
标准化与某个样本和所有样本都有关系
-
解决上面的问题,我们希望对于任何参数值,都要满足想要的分布;
-
对于反向传播,需要计算:$${{\partial N{\rm{orm}}({\rm{x}},\chi )} \over {\partial {\rm{x}}}}$$和$${{\partial N{\rm{orm}}({\rm{x}},\chi )} \over {\partial \chi }}$$
-
这样做的计算代价是非常大的,因为需要计算x的协方差矩阵
-
然后白化操作:$${{{\rm{x}} - E[{\rm{x}}]} \over {\sqrt {Cov[{\rm{x}}]} }}$$
-
上面两种都不行或是不好,进而得到了BN的方法
-
既然白化每一层的输入代价非常大,我们可以进行简化
-
简化1
-
标准化特征的每一个维度而不是去标准化所有的特征,这样就不用求协方差矩阵了
-
例如
d维的输入:$${\rm{x}} = ({x^{(1)}},{x^{(2)}}, \cdots ,{x^{(d)}})$$ -
标准化操作:
$${\widehat x^{(k)}} = {{{x^{(k)}} - E[{x^{(k)}}]} \over {\sqrt {Var[{{\rm{x}}^{(k)}}]} }}$$ -
需要注意的是标准化操作可能会降低数据的表达能力,例如我们之前提到的Sigmoid函数:
enter description here -
标准化之后均值为0,方差为1,数据就会落在近似线性的函数区域内,这样激活函数的意义就不明显
-
所以对于每个 ,对应一对参数:$${\gamma ^{(k)}},{\beta ^{(k)}}$$ ,然后令:$${y^{(k)}} = {\gamma ^{(k)}}{\widehat x^{(k)}} + {\beta ^{(k)}}$$
-
从式子来看就是对标准化的数据进行缩放和平移,不至于使数据落在线性区域内,增加数据的表达能力(式子中如果:$${\gamma ^{(k)}} = \sqrt {Var[{{\rm{x}}^{(k)}}]} $$,$${\beta ^{(k)}} = E[{x^{(k)}}]$$ ,就会使恢复到原来的值了)
-
但是这里还是使用的全部的数据集,但是如果使用随机梯度下降,可以选取一个batch进行训练
-
简化2
-
第二种简化就是使用
mini-batch进行随机梯度下降 -
注意这里使用
mini-batch也是标准化每一个维度上的特征,而不是所有的特征一起,因为若果mini-batch中的数据量小于特征的维度时,会产生奇异协方差矩阵, 对应的行列式的值为0,非满秩 -
假设mini-batch 大小为
m的B -
$$B = { {x_{1 \ldots m}}} $$,对应的变换操作为:$$B{N_{\gamma ,\beta }}:{x_{1 \ldots m}} \to {y_{1 \ldots m}}$$
-
作者给出的批标准化的算法如下:
enter description here -
算法中的
ε是一个常量,为了保证数值的稳定性 -
反向传播求梯度:
-
因为:$${y^{(k)}} = {\gamma ^{(k)}}{\widehat x^{(k)}} + {\beta ^{(k)}}$$
-
所以:$${{\partial l} \over {\partial {{\widehat x}_i}}} = {{\partial l} \over {\partial {y_i}}}\gamma $$
-
因为:$${\widehat x_i} = {{{x_i} - {\mu _B}} \over {\sqrt {\sigma _B^2 + \varepsilon } }}$$
-
因为:$${\mu B} = {1 \over m}\sum\limits{i = 1}^m {{x_i}} $$和$$\sigma B^2 = {1 \over m}\sum\limits{i = 1}^m {({x_i}} - {\mu _B}{)^2}$$
-
对于BN变换是可微分的,随着网络的训练,网络层可以持续学到输入的分布。
- 按照BN方法,输入数据
x会经过变化得到BN(x),然后可以通过随机梯度下降进行训练,标准化是在mini-batch上所以是非常高效的。 - 但是对于推断我们希望输出只取决于输入,而对于输入只有一个实例数据,无法得到
mini-batch的其他实例,就无法求对应的均值和方差了。 - 可以通过从所有训练实例中获得的统计量来代替mini-batch中m个训练实例获得统计量均值和方差
- 我们对每个
mini-batch做标准化,可以对记住每个mini-batch的B,然后得到全局统计量 - $$E[x] \leftarrow {E_B}[{\mu _B}]$$
- $$Var[x] \leftarrow {m \over {m - 1}}{E_B}[\sigma _B^2]$$(这里方差采用的是无偏方差估计)
- 所以推断采用
BN的方式为: - $$\eqalign{ & y = \gamma {{x - E(x)} \over {\sqrt {Var[x] + \varepsilon } }} + \beta \cr & {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = {\gamma \over {\sqrt {Var[x] + \varepsilon } }}x + (\beta - {{\gamma E[x]} \over {\sqrt {Var[x] + \varepsilon } }}) \cr} $$
- 作者给出的完整算法:
enter description here
- 最后给出的实验可以看出使用BN的方式训练精准度很高而且很稳定。 enter description here