<aside>
๐ก code : https://som-gpt4v.github.io/
</aside>
1. Introduction
1) About Author
2) ๋
ผ๋ฌธ์ด ๋ค๋ฃจ๋ task
2) limitations of previous studies
๊ณผ๊ฑฐ(2023.12)์ LLM์ ์ด์ฉํ VQA(Visual Question Answering)์์ visual grounding ์ฑ๋ฅ์ด ๋ฐ์ด๋์ง ์์๋ค.
- (์ ํํ๊ฒ๋) ๊ทธ ๋ฅ๋ ฅ์ ์์ ํ๊ฒ ๋ฐํํ์ง ๋ชปํ๊ณ ์๋ค.
WHY?)
- ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ๋ด์ ์ฝํ
์ธ (์ฌ๊ณผ ๋ฑ)์ ๋ํ ์๋ฏธ๋ก ์ ์ดํด + ๊ณต๊ฐ์ ์ธ ์ดํด๋ฅผ ๋ชจ๋ ๊ฐ์ง๊ณ ์์ด์ผ ํ๋ค.
- ๊ทธ๋ ์ง๋ง (๊ณผ๊ฑฐ์) ์ซ์๋ก ์ด๋ค์ง ์ขํ ์ ๋ณด์ ํ
์คํธ ์ ๋ณด๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ ์์ฐ์ค๋ฌ์ด ์ธ์ด ์์ฑ ๋ฅ๋ ฅ์ ํ๊ดดํ๊ณ vison ๋ชจ๋ธ์ด ๊ฐ์ง ๊ณต๊ฐ ์ดํด ๋ฅ๋ ฅ์ ์ ํดํ๋ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค.
- ์ข๋ ์์ธํ ์ค๋ช
3) Solution approaches

์ด๋ฏธ์ง์ Mark๋ฅผ ์ถ๊ฐํด์ VQA๋ฅผ ํ ๊ฒฝ์ฐ LLM์์ visual grounding + reasoning ์ฑ๋ฅ์ด ์ฌ๋๋ค.