Vision Transformer

实验记录

从头开始NiN

从头开始ViT

迁移学习ResNet18

迁移学习ViT-B-16

验证集1 验证集2 验证集3 验证集4 验证集5
Best SOS 1474 1476 1473 1474 1052
NiN best 1483.00-9 1490.50-14 1485.12-12 1486.25-12 1502.58-0
3秒 0.4899 0.5385 1.2833 0.7665 0.4997
ViT best 1477.20 1489.67 1505.07 1481.25 1505.05
7秒 1.1342 1.8654 2.9534 2.5601 1.0984
ResNet 1471.66+2 1471.7+4 1472.43+1 1472.00+2 1501.00+1
13秒 0.4714 0.4770 0.5983 0.5333 1.0456
ViTB16 10epoch 1484.00-10 1480.00-4 1474.12-1 1483.50-10 1511.83-10
75秒 0.4000 0.0000 0.7149 0.5568 0.6823
ViTB16 best 1480.00-6 1478.50-3 1474.23-1 1482.25-8 1512.00-10
75秒 0.0000 0.4583 0.6617 0.5895 0.7348

图片

其他工作

优化重构和训练的代码

关键区域提取小程序

后续工作

细调

整体流程