AI 분석 파이프라인 통합 설계

/analyze API에서 WhisperX, Wav2Vec2, CREPE가 어떤 순서로 데이터를 주고받는지, 그리고 왜 StreamingResponse를 선택했는지에 대한 설계 문서

목적과 범위

이 문서는 main.py의 POST /analyze API가 음성 파일을 입력받아 WhisperX(STT+alignment), Wav2Vec2(phoneme 추출), **CREPE(F0/pitch 추정)**를 이용해 발음/억양/피드백을 생성하는 과정에서,

각 모델이 어떤 데이터(입력/출력)를 주고받는지
결과가 어떤 순서로 생성/전송되는지
왜 응답을 StreamingResponse(NDJSON 스트리밍)로 설계했는지

를 기준으로 설명합니다.

AI 폴더에서 각 코드의 기능은 다음과 같습니다.

API: main.py
메인 파이프라인: speech_pipeline.py
WhisperX: stt_whisper.py
Wav2Vec2 phoneme: phoneme.py
CREPE pitch: pitch_crepe.py
WhisperX+CREPE merge: align_merge.py
LLM 피드백: llm_feedback.py
임시 파일 처리: audio_io.py