형미: Llama에 사용될 데이터셋이 whisper와 별도로 가야할 것 같아서 데이터셋 찾아보는중.. 근데 직접 만들어야 할 것 같다. 우선 경상도 사투리부터 해볼 계획. 데이터셋 만드는 중
지인:Llama에 사용될 데이터셋이 whisper와 별도로 가야할 것 같아서 데이터셋 찾아보는중.. 근데 직접 만들어야 할 것 같다. 우선 경상도 사투리부터 해볼 계획. 데이터셋 만드는 중
서희: Whisper 모델 돌렸는데 변환 결과가 정확하지 않아서 계속 해봐야 할 듯 하다.


위스퍼 학습 과정 중 loss가 nan으로 표시되는 오류 발생..
학습률을 낮춰 1e-6로 설정했더니 조금 더 가다가 60정도부터 nan 발생…
충청/경상 사투리 위주로 돌리려 했는데, 충청 데이터가 넘 많아서 먼저 경상 데이터(180)위주로 돌리는 중(10 epochs)
→ 형미 생각: 뭔가 데이터의 전처리가 필요할 수도 있을 것 같다는 생각이 든다..! (우선 여러번 파인튜닝 해보고 보완 필요할 듯)