원래 H16xW64로 들어갔던 crop image size를 H224xW224로 맞추었을 때
논문에 의하면, Transformer는 학습시키기 위해 많은 양의 데이터를 요하며, 데이터가 많지 않을 경우는 pretrain weight 사용을 적극 권고하고 있었기 때문에, pretrain weight를 사용하기 위해 H224xW224에 padding해서 맞추었다. 그렇게 padding으로 대부분의 이미지가 정보가 없는 0의 값을 갖게 되다보니, 자연스럽게 preds의 값이 항상 한 글자로 수렴하는 것을 확인할 수 있었다. [s]는 stop token을 의미한다.
imgH=16, imgW=64
모르는 점
ViTSTR의 문제점
잘린 텍스트 이미지는 보통 정사각형이 아닌 넓이가 높이보다 훨씬 긴 직사각형인데, ViTSTR에서는 224x224 사이즈의 이미지를 받고 있었다. 억지로 H16xW64정도의 이미지를 H224xW224로 늘리니 성능이 잘 나오지 않았다.
참조