✍️ 답변:
로컬 LLM 연동 및 프롬프트 생성: LM Studio(Gemma-4-e4b-it)를 활용하여
RAG 성능 테스트용 질문 100개를 자동 생성하고 검증 파이프라인을 구축함.
정량 평가 실행: run_evaluation.py의 core 모드를 통해
시스템의 기초 성능(p95 지연 시간, hit@5, kwRecall)을 1차 측정함.
결과 가공 도구 개발: JSON 결과 파일을 팀원들이 바로 채점할 수 있는
엑셀(CSV) 형식으로 변환하는 final_to_excel.py 스크립트를 제작함.
시스템 트러블슈팅: 서버 장애 대응 및 데이터셋 ID 중복(q1)으로 인한
매칭 오류 원인을 파악하고 수정 프로세스를 정립함.
📌 간단한 근거:
시스템 답변 추출과 분석 로직은 완료되었으나,
개별 하드코딩 된 점,
데이터셋 ID 정합성 문제로 인해 실제 팀원 배포용 채점표 생성이 잠시 보류됨.
✍️ 답변: