data preprocessing

data_preprocessing.py

augment 추가해야함

모델 구조 출력

test.py

Training

<aside> 💡 다른 모델 적용시 체크해야할사항

모델 이름 코드에서 변경 (처음 다운로드 받을 때 오래걸림)
⭐ 해당 모델 huggingface 들어가서 다음 사항 체크 ⭐
- tokenizer_config.json 에서 "eos_token": "<|endoftext|>”
- model 구조 보고 target_modules 정하기
대부분이 모델 파라미터 값을 공유하지만, 아닐 경우 확인

</aside>

polyglot-ko_qlora.py

학습 정상 진행까지 확인 (F1 score, 랜덤성은 확인 안함)

예시 Model 모듈 구조

kyujinpy/KO-Platypus2-7B-ex

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    eos_token="</s>" ?
    )

config = LoraConfig(
lora_alpha=256,
lora_dropout=0.05,
r=128,
target_modules=['v_proj', 'up_proj', 'down_proj', 'k_proj', 'o_proj', 'q_proj', 'gate_proj'],
bias="none",
task_type="CAUSAL_LM"
)

EleutherAI/polyglot-ko-12.8b