Paper Info

CVPR 2016 Paper

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/d632240c-51e2-46c6-9459-2df4cb195ab6/Untitled.png

Goal of the Paper

텍스트 인식(Text Recognition) 태스크에서 커브 형태 및 자유 형태 또는 촬영 각도 등에 perspective 형태를 가지는 irregular text를 인식하기 위한 방안을 제시

Contribution

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/da0e01bc-9c5c-4758-94a1-9b5a209881dc/Untitled.png

본 논문은 irregular한 텍스트 인식을 위해 다음과 같은 방법을 제안하였다.

  1. 입력 영상의 irregular 텍스트 이미지를 Spatial Transformer Network(*)를 활용한 Thin-plate-spline(TPS) transformation을 통해 regular 텍스트 이미지로 변환하여 문자 인식 수행
  2. Attention mechanism을 활용한 Sequence Recognition Network(SRN)

(*) Jaderberg, Max, Karen Simonyan, and Andrew Zisserman. "Spatial transformer networks." Advances in neural information processing systems. 2015.

The Proposed Method

Spatial Transformer Network

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/93a94fd0-fa93-43dc-aa79-c7f4523d5a6c/Untitled.png

제안 방법은 STN을 이용하여 입력 영상에 대한 rectification을 수행한다. 이 때, 단순히 STN을 이용한 변환을 수행해서는 학습된 결과가 의도한 irregular text에 대한 rectificiation을 수행하도록 도출되지 않기 때문에 이러한 변환을 수행할 수 있는 explicit한 가이드를 줄 수 있는 방법을 제안하였다.

제안 방법의 핵심은 localization network로 부터 이미지 내의 텍스트 주변의 fiducial points에 대한 예측을 수행하고, grid genarator에서 해당 point들을 TPS(thin-plate-spline) transform을 계산하고, Sampler에서 input image에 대한 rectification을 수행한다.

STN의 장점은 위 모든 연산이 differentiable 한 연산들로 구성되어 각 모듈의 파라미터들이 학습이 가능하다는 점이다.

Localization Network