<aside> 💡 code : https://som-gpt4v.github.io/

</aside>

1. Introduction

1) About Author

2) 논문이 다루는 task

Input: User query(prompt; String) + Image + Mark(Mask + Bounding Box + number(alphanumeric))
Output: response(String)

2) limitations of previous studies

과거(2023.12)의 LLM을 이용한 VQA(Visual Question Answering)에서 visual grounding 성능이 뛰어나지 않았다.

(정확하게는) 그 능력을 완전하게 발휘하지 못하고 있다.

WHY?)

모델이 이미지 내의 콘텐츠(사과 등)에 대한 의미론적 이해 + 공간적인 이해를 모두 가지고 있어야 한다.
그렇지만 (과거의) 숫자로 이뤄진 좌표 정보와 텍스트 정보를 생성하는 방식은 자연스러운 언어 생성 능력을 파괴하고 vison 모델이 가진 공간 이해 능력을 저해하는 효과를 가져온다.
좀더 자세한 설명

3) Solution approaches

스크린샷 2025-07-01 오후 7.46.31.png

이미지에 Mark를 추가해서 VQA를 할 경우 LLM에서 visual grounding + reasoning 성능이 올랐다.

Glossary