分享
下课仔:xingkeit.top/8409/
在深度学习的核心框架中,神经网络通过正向传播(Forward Propagation)实现输入到输出的映射,再通过反向传播(Backward Propagation)完成参数的优化更新。这一过程构成了神经网络训练的基石。本文将基于深度之眼作业班的精讲内容,系统梳理正向传播与反向传播的公式推导逻辑,帮助学习者突破数学瓶颈,掌握神经网络的核心原理。
一、正向传播:从输入到输出的信息流动
正向传播是神经网络实现功能的基础,其核心是通过逐层计算激活值,将输入信号传递至输出层。以一个典型的三层神经网络(输入层、隐藏层、输出层)为例,其正向传播过程可分为以下步骤:
1. 输入层到隐藏层
输入向量
x=[x
1
,x
2
,...,x
n
]
T
通过权重矩阵
W
(1)
(维度为 ×ばつn
)和偏置向量
b
(1)
(维度为 ×ばつ1
)映射到隐藏层。隐藏层的加权和计算为:
z
(1)
=W
(1)
x+b
(1)
其中
z
(1)
为隐藏层的预激活值(维度 ×ばつ1
)。随后,通过激活函数
σ
(如Sigmoid、ReLU)引入非线性变换,得到隐藏层激活值:
a
(1)
=σ(z
(1)
)
2. 隐藏层到输出层
隐藏层激活值
a
(1)
作为下一层的输入,通过权重矩阵
W
(2)
(维度为
k×ばつm
)和偏置向量
b
(2)
(维度
k×ばつ1
)映射到输出层。输出层的预激活值和激活值计算为:
z
(2)
=W
(2)
a
(1)
+b
(2)
,a
(2)
=σ(z
(2)
)
最终输出
a
(2)
即为网络的预测结果。
3. 正向传播的链式结构
正向传播的本质是层间线性变换与非线性激活的交替进行。每一层的输出仅依赖于前一层的输出和当前层的参数,这种结构使得误差可以逐层反向传播,为参数更新提供方向。
二、反向传播:从损失到参数的梯度传递
反向传播的核心是通过链式法则(Chain Rule)计算损失函数对网络参数的梯度,从而指导参数的优化方向。以均方误差损失函数
L=
2
1
∥y−a
(2)
∥
2
为例(其中
y
为真实标签),反向传播的推导可分为以下步骤:
1. 输出层误差计算
首先计算损失函数对输出层激活值的梯度(即误差项
δ
(2)
):
δ
(2)
=
∂z
(2)
∂L
=
∂a
(2)
∂L
⊙σ
′
(z
(2)
)
其中
⊙
表示逐元素相乘,
σ
′
为激活函数的导数。对于均方误差和Sigmoid激活函数,有:
∂a
(2)
∂L
=a
(2)
−y,σ
′
(z)=σ(z)(1−σ(z))
2. 隐藏层误差计算
通过链式法则,将输出层误差反向传递至隐藏层。损失函数对隐藏层预激活值的梯度为:
δ
(1)
=
∂z
(1)
∂L
=(W
(2)
T
δ
(2)
)⊙σ
′
(z
(1)
)
这一步骤体现了反向传播的误差反向传递特性:当前层的误差由下一层的误差和连接权重共同决定。
3. 参数梯度计算
基于误差项,可进一步计算损失函数对权重和偏置的梯度:
权重梯度:损失函数对
W
(2)
的梯度为外积形式:
∂W
(2)
∂L
=δ
(2)
a
(1)
T
对
W
(1)
的梯度同理:
∂W
(1)
∂L
=δ
(1)
x
T
偏置梯度:损失函数对偏置的梯度为误差项的逐元素和:
∂b
(2)
∂L
=δ
(2)
,
∂b
(1)
∂L
=δ
(1)
4. 反向传播的链式法则本质
反向传播的核心是将复杂函数的梯度分解为多个简单函数的梯度乘积。通过逐层传递误差项,避免了直接计算高维参数的复杂梯度,显著降低了计算复杂度。
三、公式推导的关键点与常见误区
1. 激活函数的选择影响推导
不同激活函数(如Sigmoid、ReLU、Tanh)的导数形式不同,需根据具体函数调整误差项的计算。例如,ReLU的导数为:
σ
′
(z)={
1
0
if z>0
otherwise
这会导致梯度在负区间消失,需在设计中注意。
2. 维度匹配的严谨性
在矩阵运算中,维度匹配是推导的核心。例如,
W
(2)
T
δ
(2)
的维度必须与
a
(1)
一致,否则无法进行逐元素相乘。推导时需始终检查每一项的维度是否合理。
3. 链式法则的展开顺序
反向传播需从输出层向输入层逐层展开,不可跳过中间层。例如,计算
∂W
(1)
∂L
时,必须通过
δ
(1)
,而非直接对
W
(1)
求导。
四、从理论到实践:推导的工程意义
反向传播的公式推导不仅是数学训练,更是理解神经网络优化过程的关键。通过掌握推导逻辑,学习者可以:
灵活调整网络结构:如增加隐藏层、修改激活函数时,能快速推导新的梯度公式;
调试优化过程:当训练出现梯度消失或爆炸时,可通过推导定位问题层;
设计自定义损失函数:根据任务需求定义损失函数后,能独立推导其梯度。
结语:推导是理解深度学习的钥匙
正向传播与反向传播的公式推导,是神经网络从理论到实践的桥梁。通过深度之眼作业班的精讲,学习者可以系统掌握这一核心技能,突破数学障碍,为后续的模型优化、架构设计打下坚实基础。推导的过程或许繁琐,但每一步的严谨都将转化为对深度学习更深刻的理解——这不仅是应试的利器,更是探索AI未知领域的通行证。
有疑问加站长微信联系(非本文作者))
入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889
关注微信23 次点击
添加一条新回复
(您需要 后才能回复 没有账号 ?)
- 请尽量让自己的回复能够对别人有帮助
- 支持 Markdown 格式, **粗体**、~~删除线~~、
`单行代码` - 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
- 图片支持拖拽、截图粘贴等方式上传