Tokenizer

자연어 문장을 모델이 이해할 수 있는 숫자 토큰(token)의 형태로 변환해주는 도구

사람이 쓴 문장을 모델이 읽을 수 있도록 “번역”해주는 역할


예를 들어 이런 문장이 있다고 가정

sentence = "정부는 복지 정책을 강화했다."

이 문장을 모델에 바로 넣을 수는 없기 때문에, tokenizer가 다음과 같은 작업을 합니다:

  1. 문장 → 단어/서브워드 분리

    예: "정부", "##는", "복지", "정책", "##을", "강화", "##했다"

  2. 단어 → 숫자 ID로 변환

    예: [1289, 2049, 5234, 9812, 2018, 4562, 2190]

  3. 문장 길이 맞추기, 패딩 추가 등 전처리

    모델 입력에 맞게 처리 (return_tensors="pt"는 PyTorch 텐서 형식으로 반환)


inputs = tokenizer(premise, hypothesis, return_tensors="pt", truncation=True)

이 부분은 “premise와 hypothesis” 두 문장을 이어 붙여서 모델이 이해할 수 있는 토큰 형식의 입력값을 만드는 작업이에요.

이렇게 만든 inputs을 모델에 넣으면, 정치적 편향 유무를 판단할 수 있는 거죠.


Adapters

Hugging Face 생태계에서 사용하는 AdapterHub 라이브러리의 일부로, 사전 훈련(pretrained)된 모델에 “어댑터(adapter)“라는 작은 모듈을 추가하여 특정 작업에 맞게 효율적으로 fine-tune할 수 있게 해주는 기술

Hugging Face 모델을 완전히 fine-tune하지 않고도, 특정 태스크(예: 정치적 편향 분류)에 적합한 소형 모듈만 추가로 학습하거나 적용할 수 있게 해주는 프레임워크


쓰는 이유: