1. Latency (응답 속도)

사용자 경험(UX)에 가장 직접적인 영향을 미치는 지표입니다.

지표명 (Metric) 설명 (Description) 목표치 (Target) 측정 방법 (How to measure)
STT Transcribe Time 오디오 파일을 텍스트로 변환하는 데 걸리는 시간 오디오 길이의 < 10% runpod_client 로그 (processing_time)
LLM Inference Time Gemini가 프롬프트를 처리하고 응답을 생성하는 시간 < 2초 (Flash)< 5초 (Pro) feedback_service / scoring_service 로그

2. Throughput (처리량)

시스템이 얼마나 많은 요청을 동시에 처리할 수 있는지 나타냅니다.

지표명 (Metric) 설명 (Description) 목표치 (Target) 측정 방법 (How to measure)
RPS (Requests Per Second) 초당 처리 가능한 API 요청 수 트래픽 예상치 * 1.5 Load Tester (Locust, k6)
Token Throughput 초당 생성되는 LLM 토큰 수 (Tokens/sec) 모델 스펙 참조 Gemini API Usage 리포트

3. Resource Utilization (자원 효율성)

비용 최적화와 안정성을 위해 모니터링해야 합니다.

지표명 (Metric) 설명 (Description) 권장치 (Recommendation) 측정 도구
GPU VRAM Usage STT 모델(Whisper)이 점유하는 GPU 메모리 < 80% (OOM 방지) RunPod Worker 로그 (nvidia-smi)
CPU/Memory Usage AI Server(FastAPI)의 컨테이너 리소스 사용량 < 70% Docker Stats / AWS CloudWatch
Network I/O 오디오 파일 다운로드/업로드 대역폭 병목 없을 것 RunPod/EC2 Network Metrics

4. Error & Reliability (안정성)

서비스의 신뢰도를 측정합니다.

지표명 (Metric) 설명 (Description) 목표치 (Target)
Error Rate (4xx/5xx) 전체 요청 대비 실패한 요청의 비율 < 1%
Job Failure Rate RunPod 작업 실패 비율 (Timeout, OOM 등) < 0.1%
LLM Block Rate Safety Filter로 인해 거부된 응답 비율 0% (설정 튜닝 필요)

5. Quality (정확도 및 품질)

AI 모델의 성능이 실제 서비스 요구사항을 충족하는지 평가합니다.

지표명 (Metric) 설명 (Description) 확인 방법 (Verification)
WER (Word Error Rate) STT가 음성을 얼마나 정확하게 받아적었는지 (낮을수록 좋음) 정답 스크립트와 비교 (테스트셋 필요)
Hallucination Rate STT가 침묵 구간에서 엉뚱한 텍스트를 생성하는 빈도 VAD 필터 적용 전후 비교
Feedback Accuracy LLM 피드백이 전문가(사람)의 평가와 일치하는 정도 무작위 샘플링 후 전문가 정성 평가 (Review)