Towards Unconstrained End-to-End Text Spotting

본 논문은 2019 ICCV 오럴 세션에서 구글AI 소속의 저자가 발표한 End-to-End OCR에 관한 기술을 제안하고 있습니다.

Introduction

해결하고자하는 문제

본 논문에서 지적하는 기존 End-to-end 방식 OCR의 문제점은 다음과 같습니다.

기존 End-to-end 방식의 방법들은 backbone CNN을 detector와 recognition 파트를 공유하면서, detector에서 rotated rectangle 형태로 글자 영역을 예측하면, cropped feature를 rectify하여 한방향으로 진행하는 텍스트를 읽는 recognizer에 전달한다. 하지만, 이러한 방식은 arbitrary shaped text나 curved text을 읽는 태스크에는 취약하다.
End-to-end 모델을 학습할 때의 큰 문제점 중의 하나는 detector에 비해 recognizer의 학습에는 훨씬 많은 데이터가 필요한데, 이미지 단위로 fully-annotate 된 학습 데이터가 충분히 많지 않다는 점이다. 또한, 기존 데이터셋에 recognizer가 충분히 수렴할 때 쯤에는 detector는 엄청나게 overfitting된 상태가 된다.

Contribution

Feature rectification 없이 Mask-RCNN의 segmentation map에서 텍스트 영역만 마스킹(RoI masking)하고, recognizer의 attention decoder에 전달하도록 하여, arbitrary shaped text에 대해서도 인식이 원활하도록 설계하였다.
recognizer를 학습 시키기에 학습데이터가 불충분한 문제를 해결하기 위해, 기존의 2 step OCR engine으로 대규모의 paritally labeled dataset을 생성하여, semi-supervision 방식으로 학습을 하였다.
위 두가지 contribution에 의해 ICDAR15(straight text) dataset에서 4.6%, Total-text(curved) dataset에서 16% 성능 향상을 하여 SOTA를 달성하였다.

Proposed Method

제안 방법은 Mask R-CNN 구조를 베이스라인으로 삼고있습니다. Recognition을 위해서는 backbone의 feature map에서 prediction된 텍스트의 rectangle 영역을 crop한 후, 텍스트 영역에 대한 segmentation mask결과를 곱하여, 텍스트 이외의 배경을 삭제한 후, attentional decoder에서 문자 인식을 수행합니다.

Feature Extractor

ResNet-50과 Inception-ResNet 기본으로 하고 output stride가 8이 되도록 변경
Large receptive field를 유지하기 위해, conv4_1 layer이하를 atrous conv로 변경