相当于77个cell,每个cell都是130的vector(2*5+20 两个框+二十个类别)。 每个cell都是基于全图预测**整张图片,而不是把图片分成7*7个方格进行局部预测。
e.g. 每个cell都会对图中物体识别,画框。图中为红色的cell,原点为左上角蓝点