아래는 **대규모 프로젝트(예: 1만 줄 이상 코드, 매우 많은 커밋 등)**에서도 위 GitFolio 코드를 완벽하게 동작시키기 위해 어떤 부분을 어떻게 수정하면 좋을지에 대한 구체적인 방안입니다. 요점은 API 호출·LLM 토큰 제한을 고려하면서, Incremental(증분) 처리, 필터링 등을 통해 안정적으로 “전체 레포지토리”를 분석하도록 만드는 것입니다.


1. 서버(Express) 측 변경: 대규모 데이터 처리 전략

1.1 커밋·코드 청크(Chunk) 단위 처리

문제:

해결 방안:

  1. Pagination(페이지네이션) 사용:
  2. 커밋 제한:

1.2 증분(Incremental) 분석

문제:

  1. DB 혹은 캐싱을 사용
  2. GitHub 웹훅(Webhook) / 스케줄러

1.3 코드 파일 분석 시 필터링

문제:

  1. 확장자 필터: .json, .png, .md, .min.js 등은 무시
  2. 폴더 필터: node_modules/, build/, dist/ 등 빌드 산출물 폴더 제외
  3. Partial Summarization: 파일 내용이 만 줄 이상이면, 문맥이 중요한 앞부분/핵심 함수 부분만 추려서 LLM에 보내고, 나머지는 요약으로 대체.