2/15

김태한

LayoutLMV3은 image의 Tensor를 바로 Input으로 넣을 수 없고 image processor를 거쳐야한다.

Tesseract를 통해 OCR을 수행하여 텍스트를 불러오는 작업이 필요. 한글은 불러오지 못한다.

→ 멘토링 때 질문.

Second Stage의 모델을 LayoutLM v3가 아닌 EfficientNet v2 M으로 변경하여 학습.

OCR의 경우 뒤집힌 문서 등의 augmented image에 대해서 문자열을 제대로 활용할 수 없다. 제대로 정렬된 문서 이미지만 words의 features를 학습하고 나머지 이미지는 그렇지 않을듯하다.

2/19

EVA 02는 전체 fine tuning보단 FC 학습이 성능이 더 좋다. Oversampling이 성능에 도움이 되는듯하다. 애매한 라벨의 데이터는 제거. optimizer의 weight_decay. 0.1이 0.9보다 더 성능이 좋다.