사용자 경험(UX)에 가장 직접적인 영향을 미치는 지표입니다.
| 지표명 (Metric) | 설명 (Description) | 목표치 (Target) | 측정 방법 (How to measure) |
|---|---|---|---|
| STT Transcribe Time | 오디오 파일을 텍스트로 변환하는 데 걸리는 시간 | 오디오 길이의 < 10% | runpod_client 로그 (processing_time) |
| LLM Inference Time | Gemini가 프롬프트를 처리하고 응답을 생성하는 시간 | < 2초 (Flash)< 5초 (Pro) | feedback_service / scoring_service 로그 |
시스템이 얼마나 많은 요청을 동시에 처리할 수 있는지 나타냅니다.
| 지표명 (Metric) | 설명 (Description) | 목표치 (Target) | 측정 방법 (How to measure) |
|---|---|---|---|
| RPS (Requests Per Second) | 초당 처리 가능한 API 요청 수 | 트래픽 예상치 * 1.5 | Load Tester (Locust, k6) |
| Token Throughput | 초당 생성되는 LLM 토큰 수 (Tokens/sec) | 모델 스펙 참조 | Gemini API Usage 리포트 |
비용 최적화와 안정성을 위해 모니터링해야 합니다.
| 지표명 (Metric) | 설명 (Description) | 권장치 (Recommendation) | 측정 도구 |
|---|---|---|---|
| GPU VRAM Usage | STT 모델(Whisper)이 점유하는 GPU 메모리 | < 80% (OOM 방지) | RunPod Worker 로그 (nvidia-smi) |
| CPU/Memory Usage | AI Server(FastAPI)의 컨테이너 리소스 사용량 | < 70% | Docker Stats / AWS CloudWatch |
| Network I/O | 오디오 파일 다운로드/업로드 대역폭 | 병목 없을 것 | RunPod/EC2 Network Metrics |
서비스의 신뢰도를 측정합니다.
| 지표명 (Metric) | 설명 (Description) | 목표치 (Target) |
|---|---|---|
| Error Rate (4xx/5xx) | 전체 요청 대비 실패한 요청의 비율 | < 1% |
| Job Failure Rate | RunPod 작업 실패 비율 (Timeout, OOM 등) | < 0.1% |
| LLM Block Rate | Safety Filter로 인해 거부된 응답 비율 | 0% (설정 튜닝 필요) |
AI 모델의 성능이 실제 서비스 요구사항을 충족하는지 평가합니다.
| 지표명 (Metric) | 설명 (Description) | 확인 방법 (Verification) |
|---|---|---|
| WER (Word Error Rate) | STT가 음성을 얼마나 정확하게 받아적었는지 (낮을수록 좋음) | 정답 스크립트와 비교 (테스트셋 필요) |
| Hallucination Rate | STT가 침묵 구간에서 엉뚱한 텍스트를 생성하는 빈도 | VAD 필터 적용 전후 비교 |
| Feedback Accuracy | LLM 피드백이 전문가(사람)의 평가와 일치하는 정도 | 무작위 샘플링 후 전문가 정성 평가 (Review) |