1주차 (1/30 ~ 2/2)

1/30

업스테이지 CV 강의 Part 6의 Image Classificaiton 강의, Part 8의 Image Classificaiton 대회 확인

강인하 멘토님과 김용담 멘토(2/1 목 오전 멘토링시간)님께 CV document image classification 관련 논문 추천받기. 현재 찾은 내용: LayoutLM(v1, v2, v3), DocFormer, DocVQA

02.01 멘토링

Q. 문서 분류 CV와 관련된 참고할만한 document가 있는지

**기본 baseline은 Layout LM V3(MS의 모델)**로 잡으셔도 됩니다.

접근 방식

calibration 이후, OCR를 수행하는 방식도 있음

header / body / footer 등 따로따로 잘라 학습할 수도 있음

ViT-LAION-2B도 참조

pre-trained가 많이 되었느냐가 중요하다. 이 때, data가 한국어 문서이므로, 한국어 데이터에도 robust한 pre-trained 모델을 사용하는 것이 결과가 안정적으로 나올 것이다.

Q. 한국어로 된 pretrained가 없다면, 영어로 된 걸 가져와서 fine-tuning을 하는 게 나을지, 밑바닥부터 학습하는 것이 나을지

가능한 접근법: Transfer Learning, 밑바닥부터 직접 학습, Pre-trained등 Few Shot 등

document 상대로 trained된 게 좋다 - 한국어 Pre-trained LayoutLM 모델들, 영어 Pre-trained LayoutLM 모델들 찾아볼 필요가 있다.