STD : Regression vs Segmentation

텍스트 탐지(또는 물체) 방법은 크게 1)regression 과 2)segmentation 방법이 있다.

방법에 따른 텍스트 탐지(STD) 모델 비교

1) regression 방식

텍스트 영역의 박스 좌표를 예측하는 regression 모듈과 텍스트인지 아닌지(0 또는 1) 분류하는 classification 모듈로 나뉜다.
결과값으로 나온 박스 좌표만 이용할 경우 정확한 텍스트 영역 탐지가 불가능하다.
IoU와 NMS로 예측한 탐지 박스를 걸러낸다.
해당 방식은 regression외에도 segmentation 값을 활용하기도 한다. 탐지 박스와 실제 텍스트 간의 offset을 segmentation map을 통해 좀 더 세밀한 텍스트 영역 탐지가 가능하다
regression 모듈은 앵커 박스 사용유무에 따라 다시 나뉘기도 한다.
- anchor-based : 앵커박스를 사전정의해서 박스 좌표를 계산하는 indirect regression과 격자 중심으로부터 박스 좌표를 계산하는 direct regression으로 나뉜다.
- anchor-free : 격자별 앵커박스 값들을 계산해야하는 부담을 줄이고, keypoint난 center를 활용해서 박스 좌표 예측한다.

regression-based 텍스트 탐지 예시

2) semantic segmentation 방식

UNet 구조나 FPN 구조를 Backbone으로 활용해서 이미지와 대응되는 Feature map을 뽑는다. Feature map의 위치와 실제 이미지의 위치를 매칭시켜서 유의미한 정보를 추출한다.
픽셀 단위로 예측하기 때문에 더 정확한 텍스트 영역 탐지가 가능하다
후처리가 느리다. 모델에서 나온 결과를 유효한(valid) 결과로 뽑기 위해서 후처리가 필요한데, 이 후처리가 오래 걸리는 경우가 있다.
근접한 텍스트들 간 분리가 힘들다. 이를 보완하기 위해서 shrink mask(해당 논문;MT)나 text kernel(PAN)과 같은 컨셉이 고안되었다

segmentation-based 텍스트 탐지 예시