梯度（gradient）本身指向的是损失函数增长最快的方向，而我们做梯度下降（Gradient Descent）是为了让损失变小，所以必须往反方向走，乘上 “−” 就变成下坡方向，所以参数会逐步走向损失最小的位置。

梯度正 → 上坡在正方向 → 往正方向走会让损失变大，我们往负方向走 → www 变小
梯度负 → 上坡在负方向 → 往负方向走会让损失变大，我们往正方向走 → www 变大

如果梯度 = 0，说明当前位置已经是平的（山坡坡度为 0）。无论学习率 η 多大，η×0=0，所以参数不再移动，训练自然停止。

但是可能到达了局部极小值（local minimum），也可能在平坦区（plateau）卡住。
实际深度学习训练时，第二种情况（梯度完全为 0）很少完全发生，因为数值上常常只是接近 0。所以会加一个容忍阈值（tolerance）。

Sigmoid 函数，如果 x1 的值，趋近于无穷大的时候，根据指数函数性质，e^−(b+wx1)会趋近于0，这一项就会消失，因此这一函数就会收敛在高度为 c 的地方。如果 x1 负的非常大的时候，e^−(b+wx1)会趋近于无穷，e^−(b+wx1)作为分母就会非常大，函数的值就会趋近于 0。

不同的w，改变斜率；不同的b，改变偏移；不同的c，改变高度。

Screenshot 2025-08-15 at 11.05.29 PM.png

Sigmoid 的数量是由自己决定的，而且 Sigmoid 的数量越多，可以产生出来的分段线性函数就越复杂。Sigmoid 越多可以产生有越多段线的分段线性函数，可以逼近越复杂的函数。Sigmoid 的数量也是一个超参数。

多个 Sigmoid 单元，是同时处理输入，而不是把 x 轴切成三段来各自负责。神经网络不是人为切段的，而是让模型自己学习每个 Sigmoid 单元的中心位置、斜率、偏移量。这样多个 Sigmoid 的组合（加权求和）就可以形成任意复杂的“折线”或“平滑曲线”。这个组合结果就是新的特征值，送到下一层去。

这个图只有一层隐藏层：输入 x → 线性变换 → 激活函数 → 加权求和 → 输出 y。没有第二层再继续激活的过程，所以它是一个单隐藏层网络。

Screenshot 2025-08-12 at 12.26.25 AM.png