Normalization (归一化):针对输入数据尺度不一样,范围过大

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/7acc2e10-daf9-417b-ae38-433206516c91/Untitled.png

前向/反向传播:

前向传播

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/768030cd-0360-4e39-b736-353735ed9340/Untitled.png

先前向传播计算 y ,然后计算 y 和真实值误差。

然后对误差进行反向传播,更新 权值。

反向传播

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/5b0cc287-3c3c-4266-b9e8-6c25003ce2df/Untitled.png

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/b4512f46-2f8f-45cf-9e51-5d33c5ab9940/Untitled.png

dE/dz = sigmoid 求导 乘以 连接下一层的 W, 乘以 上一层求过的导数

然后再用 dE/dz 更新 dE/dw

更新参数 w = w - l * dE/dw

梯度下降,求损失函数的最小值,即将损失函数的值往导数方向移动,逐渐靠近最小值。

不直接求导的原因是有的函数求导为0是无解的,求导为0的计算量有可能也很大。矩阵求逆。

激活函数:原因(线性→非线性)

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/27679db0-2712-468d-a7d2-50bad7cc6b7f/Untitled.png

sigmoidial function 求和可以近似所有的 function

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/36c9e095-1c81-40ba-8fd1-56b35b75eb02/Untitled.png