1. 데이터 편향에 의한 연상 작용(Association-based Hallucination)

whisper은 인터넷상의 비디오 자막을 통해 학습됨..

→ 다음과 같이 음성 공백에 대해서 hallucination이 생겨남

Screenshot 2026-02-01 at 8.01.43 PM.png

Screenshot 2026-02-01 at 8.01.06 PM.png

Screenshot 2026-02-01 at 8.01.23 PM.png

Screenshot 2026-02-01 at 8.01.31 PM.png

Screenshot 2026-02-01 at 8.01.37 PM.png

2. 디코더의 자기 회귀적 루프(Autogressive Looping)

Tranformer 디코더는 이전에 생성한 토큰을 다음 토큰 생성의 조건으로 사용. 침묵 구간에서 모델이 불확실함 속에 임의의 토큰 하나를 잘못 생성하게되면 이 오류가 다음 입력으로 들어가게 되고, 모델은 스스로 생성한 오류를 정당화하기 위해 문맥을 억지로 이어가거나 특정 단어를 무한히 반복하는 상태에 빠지게 됨.

Screenshot 2026-02-01 at 8.10.09 PM.png

Screenshot 2026-02-01 at 8.09.52 PM.png

Screenshot 2026-02-01 at 8.10.17 PM.png

Screenshot 2026-02-01 at 8.10.00 PM.png

Screenshot 2026-02-01 at 8.10.51 PM.png