1.1 full connect structure

1.2 Neural structure

a = h ( w * x + b)
- a : output of neural
- h : activation function
- w : weight
- x : input
- b : bias
多个nueral组成nueral net,输入层x 根据net结构得到 输出层y
1.3 Activation function
Q: Why we need activation function?
A: There’s 3 layer, each layer multiply input x n times : y =n^3x
let m = n^3 : y = mx
如果没activation function,层数深没用
1.3.1 Sigmoid

Adv
- Sigmoid 值在 0~1之间,可直接表示probablity
Disadv
- f‘ 仅在 -2.5~2.5 的值不为0,梯度消失
- 输出永远不会小于 0,学习速度不一致
1.3.2 tanh

1.3.3 relu

直接使negative neural为0,neural死亡
1.3.3 Leaky relu