텍스트 탐지(또는 물체) 방법은 크게 1)regression 과 2)segmentation 방법이 있다.

방법에 따른 텍스트 탐지(STD) 모델 비교
1) regression 방식
- 텍스트 영역의 박스 좌표를 예측하는 regression 모듈과 텍스트인지 아닌지(0 또는 1) 분류하는 classification 모듈로 나뉜다.
- 결과값으로 나온 박스 좌표만 이용할 경우 정확한 텍스트 영역 탐지가 불가능하다.
- IoU와 NMS로 예측한 탐지 박스를 걸러낸다.
- 해당 방식은 regression외에도 segmentation 값을 활용하기도 한다. 탐지 박스와 실제 텍스트 간의 offset을 segmentation map을 통해 좀 더 세밀한 텍스트 영역 탐지가 가능하다
- regression 모듈은 앵커 박스 사용유무에 따라 다시 나뉘기도 한다.
- anchor-based : 앵커박스를 사전정의해서 박스 좌표를 계산하는 indirect regression과 격자 중심으로부터 박스 좌표를 계산하는 direct regression으로 나뉜다.
- anchor-free : 격자별 앵커박스 값들을 계산해야하는 부담을 줄이고, keypoint난 center를 활용해서 박스 좌표 예측한다.

regression-based 텍스트 탐지 예시
2) semantic segmentation 방식
- UNet 구조나 FPN 구조를 Backbone으로 활용해서 이미지와 대응되는 Feature map을 뽑는다. Feature map의 위치와 실제 이미지의 위치를 매칭시켜서 유의미한 정보를 추출한다.
- 픽셀 단위로 예측하기 때문에 더 정확한 텍스트 영역 탐지가 가능하다
- 후처리가 느리다. 모델에서 나온 결과를 유효한(valid) 결과로 뽑기 위해서 후처리가 필요한데, 이 후처리가 오래 걸리는 경우가 있다.
- 근접한 텍스트들 간 분리가 힘들다. 이를 보완하기 위해서 shrink mask(해당 논문;MT)나 text kernel(PAN)과 같은 컨셉이 고안되었다

segmentation-based 텍스트 탐지 예시