Motivation

앞선 전처리 프로젝트 끝에 전통적인 Vision 기법으로는 이미 촬영된 이미지에서 예외케이스 없이 필드의 relative orientation 을 찾아내는 것은 오랜 알고리즘 튜닝 기간이 필요하거나 불가능하다는 결론에 도달하게 됩니다. 해당 프로젝트 전반에 관한 연구와 개발 그리고 배포까지 단독으로 수행하였어야 했기에 해당 방법론을 통한 문제 해결을 보류하고, weak labels 만으로도 end-to-end 모델링이 가능한 방법론을 찾아야만 했습니다. 따라서 해당 literature 의 논문을 찾던 도중 [1] SEE 모델을 찾고, 문제를 해결하려 시도합니다.

The model

Figure 1. SEE in details.

Figure 1. SEE in details.

[1] SEE 는 입력으로 text-centric image 를 받습니다. 해당 이미지를 localization network 에 태워 $N$ 개의 fields 간 순서정보를 얻습니다. 각 fields 는 하나의 representation 으로 6 차원의 벡터값입니다. 우리는 이것을 transformation matrix 로 해석하고 다음의 transformation 을 얻습니다.

$$ f_{loc}(I) = A^{n}_{\theta} = \begin{bmatrix} \theta^{n}_1 & \theta^{n}_2 & \theta^{n}_3 \\ \theta^{n}_4 & \theta^{n}_5 & \theta^{n}_6 \\ \end{bmatrix} \\ \text{where} \quad n \in \{0, \ldots, N - 1\} $$

여기서 $\theta_{1,2,4,5}^n$ 은 scale 과 rotation 에 관한 parameter 이고, $\theta_{3,6}^n$ 은 translation 에 관한 parameter 입니다. 우리는 이 parameter 를 통해 해당 field 의 relative orientation 정보를 획득할 수 있습니다. 이 획득된 field 를 recognition network 에 태워 해당 field 에 어떤 글자들이 존재하는지를 확인합니다.

FSNS Dataset

Figure 2. Some examples of FSNS images

Figure 2. Some examples of FSNS images

논문의 benchmark 에 사용된 [2] FSNS data text-centric dataset 입니다. 해당 데이터셋의 특성은 크게 2 가지입니다.

그리고 rotated 된 이미지가 없다는 특성도 있습니다.

Preprocessing

Reference

[1] Bartz, C., Yang, H., & Meinel, C. (2017). SEE: Towards semi-supervised end-to-end scene text recognition

[2] Smith, Raymond, et al. "End-to-End Interpretation of the French Street Name Signs Dataset." European Conference on Computer Vision. Springer International Publishing, 2016.