✍️ 답변:
GPT-5 계열 모델 기반 LLM 평가 시스템 안정화 및 멀티 모델 튜닝 작업 수행
[단계별 진행 과정]
1단계: 문제 발생 및 원인 탐색
- gpt-5, gpt-5-nano 모델에서 평가 결과가 정상 출력되지 않는 문제 발생
- 일부 응답이 빈 문자열로 반환되거나 JSON 파싱 오류 발생
2단계: evaluator 수정 시도
- evaluate_with_llm_judge → 멀티 모델 구조로 확장
- 모델별 평가 점수 및 평균 점수 저장 로직 구현
- judge_scores 미정의 변수 오류 수정
3단계: config 수정
- eval_models 필드 추가 (멀티 모델 평가 지원)
- reasoning_effort 옵션 적용
4단계: generator 오류 발생 및 수정
- config 변경으로 인해 generator에서 모델 호출 오류 발생
- 모델 라우팅 및 파라미터 전달 구조 수정
5단계: evaluator 재수정
- gpt-5 계열 응답 특성 대응 로직 추가
(_extract_content, _clean_json 분리)
- JSON 파싱 안정화 처리
6단계: 토큰 및 reasoning 구조 문제 해결 (핵심)
- gpt-5 계열은 reasoning 모델로 내부 토큰을 먼저 소비하는 구조 확인
- max_completion_tokens 부족 시 응답이 빈 값으로 반환되는 문제 해결
- 모델별 토큰 분기 처리 적용 (nano / 일반 모델 구분)
7단계: 최종 테스트 및 정상 작동 확인
- gpt-5 / gpt-5-mini / gpt-5-nano 전 모델 정상 평가 확인
- 모델별 점수 + 평균 점수(llm_avg_*) 저장 성공
📌 간단한 근거:
모델별 튜닝 및 evaluator, config, generator 전반의 오류를 모두 수정하여
3개 모델(gpt-5, mini, nano) 모두 정상적으로 평가 결과 출력 확인 완료
✍️ 답변: