의제

[x] 진행상황 공유

회의내용

진행상황 공유

(1) 서희

맡았던 것: whisper 파인튜닝
모델 학습하는 중에 loss값이 NaN이 되는 문제 발생. 학습률을 엄청 낮춰봤는데(1e^-8(?)) loss 값이 0에 가까워지다가 결국 NaN이 된다.
→ 그래디언트 클리핑(?) 적용 예정. mel spectogram의 값이 너무 커지거나 작아져서 문제 발생하는 경우 있다고 해서 입력값의 스케일 변화를 줘보려고 한다….! loss 함수 로직도 검토해볼 예정

(2) 형미

맡았던 것: Llama 모델 학습시켜보기
모델 학습 데이터가 별도로 필요하다고 생각해서, GPT를 이용해서 챗봇 데이터 생성을 시도함. 경상도 사투리를 우선적으로 하려고 데이터를 수집하고 JSON으로 저장해주는 코드 만들고 있었는데,,, 수에 있어 한계를 느낌. 차라리 표준어 챗봇 데이터셋을 GPT 이용해서 사투리 버전으로 바꾸고 학습시키는 방법이 떠올라서 그 방식으로 하려고 했지만, 시험 등으로 인해 아직 학습 시작은 못했다…
https://github.com/songys/Chatbot_data/blob/master/ChatbotData.csv

(3) 지인

맡았던 것: Llama 모델 학습시켜보기
기존 데이터셋은 챗봇에 적합하지 않다고 느껴서 데이터 증강이나 자체 텍스트 변환 규칙, 별도 수집 등을 통해 대화 데이터 구축이 필요하다고 느꼈다..! 최악의 경우 사투리, 표준어 수작업 매칭이 필요하다고 느꼈고 우선 아래 자료들 검토중..!!
https://github.com/huggingface/peft

논의 내용

지난 번에 지인, 형미가 같이 Llama 파인튜닝을 하자고 했는데, 서로 바쁘고 그래서 논의가 잘 안이루어진듯. 협의를 통해 한 방식으로 해야할 듯. 우선 형미가 말한 데이터셋 괜찮은듯..!!