1. 데이터 편향에 의한 연상 작용(Association-based Hallucination)
whisper은 인터넷상의 비디오 자막을 통해 학습됨..
→ 다음과 같이 음성 공백에 대해서 hallucination이 생겨남
2. 디코더의 자기 회귀적 루프(Autogressive Looping)
Tranformer 디코더는 이전에 생성한 토큰을 다음 토큰 생성의 조건으로 사용.
침묵 구간에서 모델이 불확실함 속에 임의의 토큰 하나를 잘못 생성하게되면 이 오류가 다음 입력으로 들어가게 되고, 모델은 스스로 생성한 오류를 정당화하기 위해 문맥을 억지로 이어가거나 특정 단어를 무한히 반복하는 상태에 빠지게 됨.