<aside> 💡 code : https://github.com/microsoft/graphrag

</aside>

1. Introduction

1) About Author

2) 논문이 다루는 task

이 논문은 대규모 텍스트 모음(Corpus)에 대해 전체를 조망하는 질문에 답하는 '질의 중심 요약(Query-Focused Summarization, QFS)' 작업을 다룹니다.

2) limitations of previous studies

스크린샷 2025-12-28 오후 3.45.36.png

3) Solution approaches

이 논문은 위 두 가지 방법의 장점을 결합한 GraphRAG를 제안합니다.

2. Related Work

논문은 크게 세 가지 관련 연구 분야를 언급합니다.

3. 제안 방법론

1) Main Idea

GraphRAG의 핵심 아이디어는 '지역적(local) 검색(RAG)에서 전체적(global) 요약으로'의 전환입니다. 방대한 텍스트 전체를 미리 지식 그래프와 계층적 커뮤니티 요약본이라는 구조화된 인덱스로 구축해 둡니다. 이를 통해 단순히 키워드와 의미적으로 유사한 몇 개의 문서를 찾는 것을 넘어, 문서 전체의 관계와 맥락을 이해하고 종합적인 답변을 생성할 수 있게 됩니다.

2) Contribution

  1. 새로운 GraphRAG 프레임워크 제안: RAG의 확장성과 QFS의 깊이 있는 이해를 결합하여, 대규모 문서에 대한 '전체적 이해(global sensemaking)' 질의를 효과적으로 처리하는 새로운 방법을 제안했습니다.
  2. 새로운 평가 방법론 개발: 정답이 없는 광범위한 질문에 대해 답변의 **포괄성(Comprehensiveness)**과 **다양성(Diversity)**을 측정할 수 있는 새로운 LLM 기반 평가 기법을 개발하고 적용했습니다.
  3. 성능 입증 및 공개: 실제 데이터셋을 통해 기존 벡터 RAG 방식보다 답변의 포괄성과 다양성 측면에서 월등히 뛰어남을 실험적으로 증명했으며 , 관련 코드를 오픈소스로 공개하여 접근성을 높였습니다.

4. 모델 구조

Steps (GPT-4-turbo 사용)

5. 실험 및 결과

<aside> 💡

저자는 기존의 RAG 평가 데이터셋으로 활용되던 multi-hop 데이터셋 등에서 전역적인 질문을 평가하기 위한 질문 및 평가 방식이 적절하지 않다고 비판하였다. 그래서 평가용 query 및 평가 방식을 제시한다.

</aside>

1) Dataset

2) Baseline

실험 1 : RAG vs GraphRAG

아래의 경우의 수로 응답 결과물들을 생성하여 비교

→ RAG 결과물과 GRAPHRAG 결과물을 1대1로 대결하여 비교

실험 2 : claim을 이용한 평가

실험 1에서 얻은 포괄성과 다양성 결과를 검증하기 위해서 claim을 추출하여 그 갯수로 평가를 진행

실험 1의 LLM의 응답 결과물들을 input으로 LLM에게 사실적 클레임을 포함하는 문장을 식별하고 그 문장을 단순하고 독립적인 사실적인 클레임으로 분해

3) 결과

실험 1

스크린샷 2025-12-28 오후 6.40.57.png

스크린샷 2025-12-28 오후 6.41.42.png

실험 2

스크린샷 2025-12-28 오후 6.41.53.png

스크린샷 2025-12-28 오후 6.42.08.png

4) 배운점 + 의문점


Reference

https://www.youtube.com/watch?v=mlsZIThxQcQ

https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/