Neck的输出通过concat和前面的卷积层拼接,类似Yolo v2的pass through 形成三个prediction head
头部三个块,每个输出三个边界框,共九个。 1313 cell 少,感受野大,检测大物体 2424中物体 52*52小物体
(2-w*h)为惩罚项,框越小,惩罚越大