텍스트 탐지(STD; 텍스트 탐지가 무엇인지 알고싶다면 이 글을 참고) 업무를 한지도 어느새 1년이 되간다. 그동안 느낀 점은 깃헙에 제공된 어떤 탐지 모델을 선택하던지, 보유중인 데이터를 적당히 학습시키면, 7-80퍼센트 정도의 정확도(이 정확도의 기준도 참 애매하지만)는 나온다는 것이다. 결국 모델을 선택하는 일은 기저 정확도에서 1-2% up-down 싸움이 아닌가 싶다. 이건 사람도 알아보기 힘들다 싶은 글자들을 탐지하고, 그러면서도 모델 자체는 복잡하지 않고 가벼워서, 속도는 빠른 모델을 찾는 일.
보통 최근에 나온 모델들의 성능이 기존의 것들보다 더 우수하고, 최신 텍스트 탐지 모델의 대부분(아마 물체 탐지의 대부분 또한)이 Segmentation 방식이라 또 다른 방식인 regression 방식에 대해서는 잘 모르고 있다는 생각이 들었다. 사실 딱히 잘 알아야할 필요성을 못 느꼈다. 내가 보기엔 segmentation 방식이 regression 방식보다 훨씬 성능이 좋다고 느꼈고, regression 방식은 어떻게 돌아가는지 정도만 알고 있으면 될 것 같았기 때문이다.
(regression 방식과 segmentation 방식에 대해서 궁금하다면, 아래 토글을 참고)
하지만 최근에 카카오 if에서 진행한 OCR 개편 진행기(아직 작성중)를 보고 텍스트 탐지 모델로 Regression 방식 모델을 사용한 걸 알게 되었다. (더 정확히는 NMS를 사용하지 않은 One-Shot Anchor Free 모델이다)
태스크 상 좀 더 가벼운 모델, 즉 속도가 우선이였기 때문에 해당 방식을 택했을 거라는 추측이 들었다. 그러면서 또 한편으로는 모델 방식마다 장단점이 있는데, 'segmentation이 무조건 짱이야~!' 섣불리 판단하고 regression 방식에 대해서는 알아볼 시도조차 하지 않았던 것 아닐까라는 반성했다.
지난 몇 주간은 regression을 사용한 물체 탐지와 텍스트 탐지 논문들을 살펴보았다. 가장 기초적인 것부터 하나하나 파볼까 하는 생각도 들었지만, 최신 논문을 일단 살펴보고, 그 논문에 활용된 기법들의 원천을 살펴보는 식으로 공부했다.
그러다 찾은 텍스트 탐지 논문 Multi-Perspective Feature Learning Network이다.
[link] : https://arxiv.org/pdf/2105.05455.pdf
이 모델의 성과는