基于ViT的声速分类器 | Notion

Vision Transformer

实验记录

从头开始NiN

从头开始ViT

迁移学习ResNet18

迁移学习ViT-B-16

	验证集1	验证集2	验证集3	验证集4	验证集5
Best SOS	1474	1476	1473	1474	1052
NiN best	1483.00-9	1490.50-14	1485.12-12	1486.25-12	1502.58-0
3秒	0.4899	0.5385	1.2833	0.7665	0.4997
ViT best	1477.20	1489.67	1505.07	1481.25	1505.05
7秒	1.1342	1.8654	2.9534	2.5601	1.0984
ResNet	1471.66+2	1471.7+4	1472.43+1	1472.00+2	1501.00+1
13秒	0.4714	0.4770	0.5983	0.5333	1.0456
ViTB16 10epoch	1484.00-10	1480.00-4	1474.12-1	1483.50-10	1511.83-10
75秒	0.4000	0.0000	0.7149	0.5568	0.6823
ViTB16 best	1480.00-6	1478.50-3	1474.23-1	1482.25-8	1512.00-10
75秒	0.0000	0.4583	0.6617	0.5895	0.7348

图片

其他工作

优化重构和训练的代码

关键区域提取小程序

后续工作

细调

整体流程