Wav2Vec2 기반 L2-Arctic 음소 단위 발음 오류 검출 Fine-Tuning

ERD Code
output

해당 파인튜닝 과정은 Fine_Tuned.ipynb에 학습 코드를 확인하실 수 있습니다.

왜 파인튜닝이 필요하였나요?

본 서비스는 청각장애인을 위한 영어 발음 교정 서비스를 목표로 기획되었습니다.

청각장애인 사용자의 경우, 청각적 피드백에 의존한 교정 방식은 한계가 있습니다. 발음 평가에서 중요한 것은 단어의 정답 여부가 아니라, 개별 음소가 얼마나 정확하게 조음되었는지입니다. 실제로 발음 평가 관련 연구에서도 단어 단위 인식보다 음소 단위의 정밀한 인식이 발음 오류 분석에 더 적합하다고 보고하고 있습니다.

이에 따라 본 프로젝트는 단어 단위 복원을 목표로 하는 일반 ASR 접근 대신, 음소(phoneme) 단위 인식을 수행하는 모델이 필수적이라고 판단하여 음소 단위 발음 오류 검출에 적합한 모델로 wav2vec2 모델을 파인튜닝하였습니다.

기존 ASR 모델의 한계

Whisper와 같이 음성 인식을 목적으로 개발된 모델의 경우 인식 결과가 발음 표기가 아닌 어휘 사전에 정의된 단어 열로 출력되는 경향이 있다. - 비원어민 한국어 발음 평가를 위한 자기 지도 학습 기반 한국어 음소 인식

음성인식

사람이 내는 소리를 음소라는 짧은 단위로 추출하고 점점 긴 덩어리로 조합하여 소리의 의미와 의도를 파악하는 일련의 과정

⇒ 즉, 내가 발음이 부정확하더라도 컴퓨터가 전체 문장을 맥락을 알아서 이해버리는 문제점이 발견
음소인식

입력된 음성 데이터에서 발음을 구성하는 최소 단위인 음소(phoneme)를 식별하는 기술

⇒ 음소 인식 기술은 학습자의 발화된 음소와 기준 음소 간의 차이를 분석하여 오류의 위치와 유형을 명확히 제시

Whisper와 같은 일반 음성 인식 모델은 본질적으로 어휘 사전에 정의된 단어 열을 복원하는 것을 목표로 하고 있습니다.

즉, 발음이 다소 부정확하더라도 문맥을 기반으로 가장 그럴듯한 단어로 보정하여 출력하는 경향이 있습니다.

# 예시
Input 발음: "opple"
Output: "apple"

이러한 경우 실제 발음 오류는 감춰지게 되며, 발음 교정 서비스에서는 치명적인 한계로써 작용하게 됩니다.

연구적 근거

본 프로젝트는 다음 연구의 문제의식에 기반하였습니다:

Whisper와 같이 음성 인식을 목적으로 개발된 모델의 경우 인식 결과가 발음 표기가 아닌 어휘 사전에 정의된 단어 열로 출력되는 경향이 있다.

-「비원어민 한국어 발음 평가를 위한 자기 지도 학습 기반 한국어 음소」 인식