前向传播
先前向传播计算 y ,然后计算 y 和真实值误差。
然后对误差进行反向传播,更新 权值。
反向传播
dE/dz = sigmoid 求导 乘以 连接下一层的 W, 乘以 上一层求过的导数
然后再用 dE/dz 更新 dE/dw
更新参数 w = w - l * dE/dw
梯度下降,求损失函数的最小值,即将损失函数的值往导数方向移动,逐渐靠近最小值。
不直接求导的原因是有的函数求导为0是无解的,求导为0的计算量有可能也很大。矩阵求逆。
sigmoidial function 求和可以近似所有的 function