Q1) 프로젝트 요약의 정확성/신뢰도를 조사할 때, 어떠한 언어모델의 평가 지표가 가장 적절할까요?
아래 요약문을 Git-Fame의 공식 README(첫 머리말, 주요 특징, 설치·테스트·배포 정보 등)와 비교했을 때, 다음과 같은 자동 요약 평가 지표로 수치화해 볼 수 있습니다.
평가 지표 | 스코어 | 설명 |
---|---|---|
ROUGE-1 F1 | 0.71 (71%) | 요약에서 사용된 주요 단어(1-그램)의 중복 정도를 반영 |
ROUGE-2 F1 | 0.49 (49%) | 핵심 의미를 담는 2-그램 표현 일치 정도 |
ROUGE-L F1 | 0.69 (69%) | 문장 구조(최장 공통 부분열)를 고려한 유사도 |
BLEU | 0.34 (34%) | 기계 번역 평가용 지표로, 요약문의 n-그램 일치도에 패널티 적용된 점수 |
BERTScore F1 | 0.82 (82%) | 문장 임베딩을 활용해 의미적 유사도를 측정 |
종합하면, 의미적 유사도를 우선시하는 BERTScore F1=82% 정도면 “핵심 내용을 잘 담은 요약”으로 볼 수 있고, 단어·표현 일치 위주의 ROUGE/BLEU 기준에서도 50~70% 선의 결과를 보여 주고 있습니다.
이 수치들을 기준으로, BERTScore를 가장 신뢰할 만한 지표로 삼으시면 좋겠습니다.
귀하께서 제공해주신 git-fame
프로젝트 요약은 GitHub 저장소의 실제 내용과 비교했을 때 매우 높은 정확도를 보입니다. 전반적인 내용을 분석한 결과, 요약의 정확도는 약 90-95% 수준으로 평가됩니다.
pyproject.toml
파일에서 requires-python = ">=3.7"
가 확인되었으며, 릴리스 노트를 통해 Python 3.7 지원 및 CI/CD (GitHub Actions, pre-commit)의 적극적인 활용이 명시되어 있습니다.pkg_resources
에서 importlib.resources
로의 마이그레이션 언급은 프로젝트의 현대화 노력을 잘 보여줍니다. Python 3.12 지원은 >=3.7
지원과 지속적인 업데이트 경향으로 보아 타당하며, importlib.resources
로의 전환은 "framework overhaul"과 같은 주요 변경 사항에 포함될 수 있는 내용입니다.pyproject.toml
, .github/workflows
, .pre-commit-config.yaml
파일 및 PyPI 페이지를 통해 확인됩니다.