[1] 오늘 날짜 / 이름 / 팀명


[2] 오늘 맡은 역할 및 구체적인 작업 내용

✍️ 답변:

- RAG 파이프라인 신뢰성 개선 및 데이터 품질 정제

[데이터 로직 수정]
- embedder.py 내 VectorStore 수정
- metadata 중복 텍스트 참조 오류 제거 → 실제 본문(text) 기준으로 인덱싱하도록 수정

[응답 제어]
- GPT-5 응답 길이 제한(max_tokens) 적용
- 시스템 프롬프트 가이드 보강

[DB 정리]
- 기존 ChromaDB 삭제 (오염 데이터 제거)
- 수정된 로직 기반 전체 재인덱싱 수행

[문제 해결]
- RAGGenerator와 파라미터 불일치로 TypeError 발생
→ query 함수 예외 처리 추가로 해결

[분석]
- 청크 데이터가 목차로 덮여 있는 문제 발견
→ 검색 결과 중복 원인 파악 및 해결

[3] 오늘 작업 완료도 체크 (하나만 체크)

📌 근거: 데이터 중복 참조 문제 해결 및 재인덱싱 완료, 최종 평가만 남음


[4] 협업 중 제안하거나 피드백한 내용

- 데이터 전처리 단계에서 필드 구조 관리 중요성 강조
- metadata와 본문(text) 혼용 방지 필요성 팀에 공유