✍️ 답변:
- 데이터 엔지니어링: 나라장터 공고 35건에 대한 수동 보정 전수 조사를 완료하고 데이터 정합성 확보를 위한 예외 처리 규칙을 수립함.
- 프롬프트 모듈화: AI 에이전트의 효율적인 구동을 위해 전체 프로세스를 Search(검색) - Extraction(추출) - Output(출력) 3단계로 분리한 모듈형 프롬프트(v8)를 설계함.
- 지식 베이스 구축: 수동 보정 시 발견된 로직과 예외 케이스를 정리한 g2b_correction_log.ipynb 파일을 생성하여 팀 내 공유 자산으로 확보함.
- 인프라 최적화: GCP 서버의 50GB 용량 제한 문제를 해결하기 위해 캐시 삭제 및 데이터 저장소 분리(Raw Data는 드라이브 보관) 전략을 수립함.
| 이슈 사항 | 원인 분석 | 조치 결과 |
|---|---|---|
| 프롬프트 관리 효율성 저하 | 단일 파일 내 복잡한 지시문이 모델의 집중력을 분산시켜 오류 유발 | Search(검색) - Extraction(추출) - Output(출력) 3단계 모듈형 프롬프트 체계로 분리 및 파이프라인 연동 |
| GCP 서버 저장 공간 부족 | 서버 용량이 50GB로 제한되어 대용량 문서(PDF/HWP) 적재 시 가동 중단 우려 | Raw Data는 Google Drive에 보관하고 서버에는 가공 데이터 및 실행 스크립트만 두는 저장소 분리 전략 수립 |
| 데이터 신뢰성 및 오염 이슈 | 발주기관 메타데이터와 실제 첨부파일 본문의 기관명이 불일치하는 케이스 발견 | 데이터 제외 리스트를 작성하고 비식별화 처리를 통해 RAG 시스템의 환각(Hallucination) 방지 로직 구축 |
| 사업비 파싱 로직 복잡성 증가 | 배정예산, 용역비용, 사업예산, 입찰한도액 등 발주처별로 상이한 용어 사용으로 파싱 실패 발생 | AI가 유의어를 탐색하여 사업비 항목으로 통합 매핑하도록 추출 로직 고도화 및 JSON 스키마 표준화 |
| 공고번호 데이터 유실 (E+ 변조) | 11자리 이상의 공고번호가 엑셀에서 지수 표기법으로 자동 변환되어 뒷자리가 0으로 변조됨 | 전 과정에서 공고번호 컬럼을 텍스트(String) 타입으로 강제 고정 및 엑셀 서식 유지 지침 수립 |
📌 간단한 근거:
수집 파이프라인 설계부터 예외 처리 로직 수립,
그리고 이를 실행할 3단계 프롬프트 제작은 진행 중 업로드 하지 않음