<aside> 💡 code : https://som-gpt4v.github.io/

</aside>

1. Introduction

1) About Author

2) 논문이 다루는 task

2) limitations of previous studies

과거(2023.12)의 LLM을 이용한 VQA(Visual Question Answering)에서 visual grounding 성능이 뛰어나지 않았다.

WHY?)

3) Solution approaches

스크린샷 2025-07-01 오후 7.46.31.png

이미지에 Mark를 추가해서 VQA를 할 경우 LLM에서 visual grounding + reasoning 성능이 올랐다.

2. Related Work

  1. LLMs and Prompting
    1. In-Context Learning
    2. chain-of-thought
    3. tree-of-thought
  2. Visual and Multimodal Prompting.
    1. SAM
  3. LMMs and Prompting : LLaVa, GPT-4V

3. 제안 방법론

1) Main Idea

2) Contribution

3) Problem Define

  1. 이미지 입력 :

    $$ I ∈ R^{H×W×3} $$

  2. 텍스트 입력 :

$$ l_{i}, T^{i} = [t_{1}^{i}, ..., t_{l_{i}}^{i}] $$

  1. 수식 :

$$ T_{o} = F(SoM(I), T_{i})

$$

4) Image Partition

  1. Strong performance(정확한 성능) : 정확하게 영역을 분할하고자 한다면 MaskDINO
  2. Open vocabulary(오픈 사전) : 사전에 정의된 객체 뿐만 아니라 다른 객체도 정의하고 싶다면 SEEM
  3. Rich granularity(세분화된 정도) : 객체 분할을 좀더 세분하게 하고 싶다면 SAM

$$

R = [r_1, …, r_K] ∈ \{0, 1\}^{K×H×W} $$

5) Set-of-Mark Generation

스크린샷 2025-07-09 오후 8.52.39.png

스크린샷 2025-07-09 오후 8.52.02.png

6) Interleaved Prompt

스크린샷 2025-07-09 오후 9.39.33.png

스크린샷 2025-07-09 오후 9.40.27.png

  1. Open-vocabulary Image Segmentation: 모든 마크된 영역(marked region)**에 대해 해당 카테고리들을 최대한 자세히 설명
  2. Referring Segmentation : 후보 영역들 중에서 가장 잘 맞는 영역(top-matched region)을 선택
  3. Phrase Grounding : 여러 명사구(noun phrase)로 구성된 완전한 문장이 입력으로 주어지고, GPT-4V는 해당 문장에 포함된 모든 명사구에 해당하는 영역들을 이미지 내에서 정확히 찾아내야 함.
  4. Video Object Segmentation: 두 장의 이미지를 입력받음

4. 모델 구조

  1. LM : GPT-4V
  2. image encoder : SAM, MaskDINO, SEEM, …

5. 실험 및 결과

1) Dataset

스크린샷 2025-07-09 오후 9.41.14.png

2) Baseline

스크린샷 2025-07-09 오후 8.54.36.png

3) 결과

스크린샷 2025-07-09 오후 9.54.40.png

  1. 박스(boxes)를 추가하는 방식성능을 유의미하게 향상
  2. 정답 마스크를 SoM에 사용하면 RefCOCOg 성능이 14.5 mIoU 향상
  3. “Golden” 주석은 항상 정확하지 않다
  1. 중심에 마크를 두는 것이 항상 최선은 아니다
  1. 마크 종류의 동적 선택(Dynamic selection of mark types)이 중요하다

4) 배운점 + 의문점

5. 추가 가이드라인


Reference