Vision Transformer
实验记录
从头开始NiN
从头开始ViT
迁移学习ResNet18
迁移学习ViT-B-16
|
验证集1 |
验证集2 |
验证集3 |
验证集4 |
验证集5 |
Best SOS |
1474 |
1476 |
1473 |
1474 |
1052 |
NiN best |
1483.00-9 |
1490.50-14 |
1485.12-12 |
1486.25-12 |
1502.58-0 |
3秒 |
0.4899 |
0.5385 |
1.2833 |
0.7665 |
0.4997 |
ViT best |
1477.20 |
1489.67 |
1505.07 |
1481.25 |
1505.05 |
7秒 |
1.1342 |
1.8654 |
2.9534 |
2.5601 |
1.0984 |
ResNet |
1471.66+2 |
1471.7+4 |
1472.43+1 |
1472.00+2 |
1501.00+1 |
13秒 |
0.4714 |
0.4770 |
0.5983 |
0.5333 |
1.0456 |
ViTB16 10epoch |
1484.00-10 |
1480.00-4 |
1474.12-1 |
1483.50-10 |
1511.83-10 |
75秒 |
0.4000 |
0.0000 |
0.7149 |
0.5568 |
0.6823 |
ViTB16 best |
1480.00-6 |
1478.50-3 |
1474.23-1 |
1482.25-8 |
1512.00-10 |
75秒 |
0.0000 |
0.4583 |
0.6617 |
0.5895 |
0.7348 |
图片
其他工作
优化重构和训练的代码
关键区域提取小程序
后续工作
细调
整体流程