✍️ 답변:
RAG 시스템 evaluation(core / detailed) 수행 및 결과 확인
chunk size(600 / 800 / 1000 / 1200)별 성능 비교 실험 진행
app.py 기반 휴리스틱 검증 수행 (팀원과 질문 분담하여 테스트)
질문 및 팔로업 구조 기반으로 응답 품질, 환각 여부, 근거 사용 여부 분석
failure_type 기준(retrieval_fail, wrong_reference, hallucination, normal)으로 오류 유형 분류 및 정리
chunk별 응답 패턴 및 오류 분포 비교 분석 수행
📌 간단한 근거:
저녁 식사후 추가 작업 예정
✍️ 답변: