Background

텍스트 탐지(STD; 텍스트 탐지가 무엇인지 알고싶다면 이 글을 참고) 업무를 한지도 어느새 1년이 되간다. 그동안 느낀 점은 깃헙에 제공된 어떤 탐지 모델을 선택하던지, 보유중인 데이터를 적당히 학습시키면, 7-80퍼센트 정도의 정확도(이 정확도의 기준도 참 애매하지만)는 나온다는 것이다. 결국 모델을 선택하는 일은 기저 정확도에서 1-2% up-down 싸움이 아닌가 싶다. 이건 사람도 알아보기 힘들다 싶은 글자들을 탐지하고, 그러면서도 모델 자체는 복잡하지 않고 가벼워서, 속도는 빠른 모델을 찾는 일.

보통 최근에 나온 모델들의 성능이 기존의 것들보다 더 우수하고, 최신 텍스트 탐지 모델의 대부분(아마 물체 탐지의 대부분 또한)이 Segmentation 방식이라 또 다른 방식인 regression 방식에 대해서는 잘 모르고 있다는 생각이 들었다. 사실 딱히 잘 알아야할 필요성을 못 느꼈다. 내가 보기엔 segmentation 방식이 regression 방식보다 훨씬 성능이 좋다고 느꼈고, regression 방식은 어떻게 돌아가는지 정도만 알고 있으면 될 것 같았기 때문이다.

(regression 방식과 segmentation 방식에 대해서 궁금하다면, 아래 토글을 참고)

regression 방식과 segmentation 방식

하지만 최근에 카카오 if에서 진행한 OCR 개편 진행기(아직 작성중)를 보고 텍스트 탐지 모델로 Regression 방식 모델을 사용한 걸 알게 되었다. (더 정확히는 NMS를 사용하지 않은 One-Shot Anchor Free 모델이다)

태스크 상 좀 더 가벼운 모델, 즉 속도가 우선이였기 때문에 해당 방식을 택했을 거라는 추측이 들었다. 그러면서 또 한편으로는 모델 방식마다 장단점이 있는데, 'segmentation이 무조건 짱이야~!' 섣불리 판단하고 regression 방식에 대해서는 알아볼 시도조차 하지 않았던 것 아닐까라는 반성했다.

지난 몇 주간은 regression을 사용한 물체 탐지와 텍스트 탐지 논문들을 살펴보았다. 가장 기초적인 것부터 하나하나 파볼까 하는 생각도 들었지만, 최신 논문을 일단 살펴보고, 그 논문에 활용된 기법들의 원천을 살펴보는 식으로 공부했다.

그러다 찾은 텍스트 탐지 논문 Multi-Perspective Feature Learning Network이다.

MT:Multi Perspective Feature Learning Network

[link] : https://arxiv.org/pdf/2105.05455.pdf

이 모델의 성과는

a light-weight detection framework is designed to speed up the inference process while keeping high detection accuracy