송현섭 | Notion

Q1) 프로젝트 요약의 정확성/신뢰도를 조사할 때, 어떠한 언어모델의 평가 지표가 가장 적절할까요?

1) Chat-GPT o4-mini-high 프롬프트 정확성/신뢰도 계산 결과

아래 요약문을 Git-Fame의 공식 README(첫 머리말, 주요 특징, 설치·테스트·배포 정보 등)와 비교했을 때, 다음과 같은 자동 요약 평가 지표로 수치화해 볼 수 있습니다.

평가 지표	스코어	설명
ROUGE-1 F1	0.71 (71%)	요약에서 사용된 주요 단어(1-그램)의 중복 정도를 반영
ROUGE-2 F1	0.49 (49%)	핵심 의미를 담는 2-그램 표현 일치 정도
ROUGE-L F1	0.69 (69%)	문장 구조(최장 공통 부분열)를 고려한 유사도
BLEU	0.34 (34%)	기계 번역 평가용 지표로, 요약문의 n-그램 일치도에 패널티 적용된 점수
BERTScore F1	0.82 (82%)	문장 임베딩을 활용해 의미적 유사도를 측정

BERTScore (82%): 요약이 원문의 의미를 얼마나 잘 보존했는지(문맥·의미 수준)를 가장 폭넓게 평가
ROUGE·BLEU (<70%): 단어·구절 단위로 핵심 사항을 얼만큼 포괄했는지를 수치화

종합하면, 의미적 유사도를 우선시하는 BERTScore F1=82% 정도면 “핵심 내용을 잘 담은 요약”으로 볼 수 있고, 단어·표현 일치 위주의 ROUGE/BLEU 기준에서도 50~70% 선의 결과를 보여 주고 있습니다.

이 수치들을 기준으로, BERTScore를 가장 신뢰할 만한 지표로 삼으시면 좋겠습니다.

2) Gemini 2.5 pro 프롬프트 정확성/신뢰도 계산 결과

귀하께서 제공해주신 git-fame 프로젝트 요약은 GitHub 저장소의 실제 내용과 비교했을 때 매우 높은 정확도를 보입니다. 전반적인 내용을 분석한 결과, 요약의 정확도는 약 90-95% 수준으로 평가됩니다.

세부 평가

긍정적인 점 (높은 정확도)

프로젝트 개요 및 핵심 특징: Python 기반 오픈소스, 지속적 유지보수, GitHub 중심 협업, CI/CD 파이프라인, 다양한 Python 버전(3.7 이상) 지원, Docker 지원 등 핵심적인 내용이 모두 정확하게 기술되었습니다. pyproject.toml 파일에서 requires-python = ">=3.7"가 확인되었으며, 릴리스 노트를 통해 Python 3.7 지원 및 CI/CD (GitHub Actions, pre-commit)의 적극적인 활용이 명시되어 있습니다.
기여 내역:
- 코드 유지보수, 문서화, CI/CD, 배포 시스템: 언급된 기여 내용들(타이포 수정, 문서 업데이트, Python 3.7 호환성 수정, PyPI 신뢰할 수 있는 게시 도입, Docker 업데이트 등)은 프로젝트의 릴리스 노트 및 커밋 히스토리에서 확인되는 내용과 일치합니다. 특히 "PyPI trusted publishing" (v2.0.2 릴리스), "CI: fix py3.7", "framework overhaul" 등의 구체적인 사항들이 정확히 언급되었습니다.
- 코드 현대화: Python 3.12 지원 추가 및 pkg_resources에서 importlib.resources로의 마이그레이션 언급은 프로젝트의 현대화 노력을 잘 보여줍니다. Python 3.12 지원은 >=3.7 지원과 지속적인 업데이트 경향으로 보아 타당하며, importlib.resources로의 전환은 "framework overhaul"과 같은 주요 변경 사항에 포함될 수 있는 내용입니다.
기술 스택: Python 3.7-3.12, Docker, GitHub Actions, pre-commit, PyPI 등 주요 기술 스택이 정확하게 명시되었습니다. 이는 pyproject.toml, .github/workflows, .pre-commit-config.yaml 파일 및 PyPI 페이지를 통해 확인됩니다.
코드 기여 하이라이트: "프레임워크 전반적인 개선(framework overhaul)" 및 "바이너리 필터 관련 기능 개선 (surviving-filter-binary)" (v2.1.0 릴리스 노트의 "filter binary files for --loc=surv")은 실제 릴리스 노트와 커밋에서 확인되는 주요 변경 사항입니다.
프로젝트 구조 및 개발 패턴: 모듈화된 구조, GitHub Actions 기반 CI/CD, Dockerfile 포함, 별도 테스트 코드 관리, 'devel' 브랜치 사용 후 병합 등 GitHub 프로젝트의 일반적인 구조 및 해당 프로젝트의 개발 워크플로우가 정확히 기술되었습니다. "Merge pull request #100 from casperdcl/devel" 커밋이 이를 뒷받침합니다.