/analyze API에서 WhisperX, Wav2Vec2, CREPE가 어떤 순서로 데이터를 주고받는지, 그리고 왜 StreamingResponse를 선택했는지에 대한 설계 문서

목적과 범위

이 문서는 main.py의 POST /analyze API가 음성 파일을 입력받아 WhisperX(STT+alignment)Wav2Vec2(phoneme 추출), **CREPE(F0/pitch 추정)**를 이용해 발음/억양/피드백을 생성하는 과정에서,

를 기준으로 설명합니다.

AI 폴더에서 각 코드의 기능은 다음과 같습니다.