Q1) 프로젝트 요약의 정확성/신뢰도를 조사할 때, 어떠한 언어모델의 평가 지표가 가장 적절할까요?

1) Chat-GPT o4-mini-high 프롬프트 정확성/신뢰도 계산 결과

아래 요약문을 Git-Fame의 공식 README(첫 머리말, 주요 특징, 설치·테스트·배포 정보 등)와 비교했을 때, 다음과 같은 자동 요약 평가 지표로 수치화해 볼 수 있습니다.

평가 지표 스코어 설명
ROUGE-1 F1 0.71 (71%) 요약에서 사용된 주요 단어(1-그램)의 중복 정도를 반영
ROUGE-2 F1 0.49 (49%) 핵심 의미를 담는 2-그램 표현 일치 정도
ROUGE-L F1 0.69 (69%) 문장 구조(최장 공통 부분열)를 고려한 유사도
BLEU 0.34 (34%) 기계 번역 평가용 지표로, 요약문의 n-그램 일치도에 패널티 적용된 점수
BERTScore F1 0.82 (82%) 문장 임베딩을 활용해 의미적 유사도를 측정

종합하면, 의미적 유사도를 우선시하는 BERTScore F1=82% 정도면 “핵심 내용을 잘 담은 요약”으로 볼 수 있고, 단어·표현 일치 위주의 ROUGE/BLEU 기준에서도 50~70% 선의 결과를 보여 주고 있습니다.

이 수치들을 기준으로, BERTScore를 가장 신뢰할 만한 지표로 삼으시면 좋겠습니다.

2) Gemini 2.5 pro 프롬프트 정확성/신뢰도 계산 결과

귀하께서 제공해주신 git-fame 프로젝트 요약은 GitHub 저장소의 실제 내용과 비교했을 때 매우 높은 정확도를 보입니다. 전반적인 내용을 분석한 결과, 요약의 정확도는 약 90-95% 수준으로 평가됩니다.

세부 평가

긍정적인 점 (높은 정확도)