卷积神经网络

在某一层，一个神经元直接对应的区域，比如 3×3

单层卷积核大小 = 感受野大小

小猫在这里可能是 6×6，但每个神经元的感受野还是 3×3

卷积计算：内积+偏置

输入图像一般是三维张量：高 × 宽 × 通道数

感受野的深度 = 输入通道数

卷积核的高和宽，通常写成 kernel size 3*3

现代 CNN 更偏好“小核 + 深层堆叠”

Screenshot 2025-08-21 at 1.21.38 PM.png

Screenshot 2025-08-21 at 1.20.13 PM.png

Screenshot 2025-08-21 at 1.46.59 PM.png

如果每个神经元都独立训练一套权重：

Screenshot 2025-08-21 at 3.32.17 PM.png

组成
- 局部连接（感受野）：每个神经元只看输入中的一小块区域（如核大小 3×3（RGB 三通道） → 滤波器参数量 = 3×3×3=27 + 1 bias）。
- 参数共享（滤波器 filter）：同一组权重 W,b 在所有感受野上复用。
运算
- 在图像上用滤波器滑动：内积+偏置
- 每个位置的感受野对应一个神经元 → 所有神经元的输出合在一起，形成一张特征图 (feature map)。
层的概念
- 一组感受野对应的神经元（共享同一个 W+b） → 构成一张特征图。
- 一张特征图就是“一个滤波器的输出”。
- 多个滤波器 → 多张特征图。
- 这一堆特征图就是一层卷积层的输出。
堆叠
- 多个卷积层堆叠起来 → 卷积神经网络 CNN。
- 低层学边缘、角点等简单模式；高层逐渐组合成复杂模式（眼睛、猫脸…）。

怎么匹配到不同位置的小猫？

假设滤波器学到了“竖直边缘”：

当它扫到猫耳边缘的 3×3 像素时，卷积结果（加权和）会变大 → “检测到竖直边缘”；当它扫到猫爪边缘的 3×3 时，如果也是竖直的 → 同样会输出大值；当它扫到猫肚子一片平坦区域时 → 卷积结果很小（说明没有竖直边缘）
因为同一套权重在全图复用，所以无论这个“竖直边缘”出现在左上还是右下，滤波器都能响应。

Screenshot 2025-08-23 at 4.26.55 PM.png