Todo
파일 모아보기

프로젝트 수행 결과 (데이터 수집, 전처리, 모델 적용 등)

데이터 수집

Hugging Face/Github 에서 한국어 혐오표현 관련 데이터셋을 수집함
Smilegate-ai 에서 배포한 Korean Unsmile Dataset

https://github.com/smilegate-ai/korean_unsmile_dataset
- 총 18,742개의 문장을 전문가 집단에 의해 다중 레이블링 함
- 본 데이터셋에서 혐오표현은 “특정 사회적 (소수자) 집단에 대한 적대적 발언, 조롱, 희화화, 편견을 재생산하는 표현”으로 정의함
- 혐오표현은 총 10,139개의 문장으로, 여성/가족,남성,성소수자,인종/국적,연령,지역,종교,기타 등의 여러 라벨로 구분됨
- 악플이나 욕설은 단일 라벨로 구성되며, 총 3,929개의 문장이 있음.
- 나머지 4,674개의 문장은 clean으로 라벨링되어 있으며, clean의 수가 상대적으로 많이 적은 불균형 데이터셋임.
Coling 2022에서 공개된 K-MHaS Dataset
- 총 109,692개의 문장을 뉴스 댓글에서 수집하였으며, 자체적으로 다중 레이블링 함
- 72:20:8 비율로 train/test/validation 으로 구분
- 총 9개로 구분되며, 각 라벨은 다음과 같음.
  
  0: Origin(출신차별), 1: Physical(외모차별), 2: Politics(정치성향차별), 3: Profanity(혐오욕설), 4: Age(연령차별), 5: Gender(성차별), 6: Race(인종차별), 7: Religion(종교차별) 8: Not Hate Speech(해당사항없는 문장)
K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment

jeanlee/kmhas_korean_hate_speech · Datasets at Hugging Face
[Validation] https://github.com/2runo/Curse-detection-data
- 커뮤니티 사이트 댓글을 5,825개 수집한 데이터셋
- 각 문장에 대해 욕설 및 혐오표현 유무가 라벨링 되어있음.
- 경상도 사투리 '-노'와 구분하기 어렵다는 점에서 다른 욕설 없이 '-노'만 붙인 문장들은 욕설로 분류하지 않음
- '존맛', '개이득' 등의 말은 비속어를 포함하고 있으므로 욕설이라 볼 수 있으나 최근에는 강조의 의미로 흔히 쓰이고 있으므로 악의가 없는 단순 강조의 의미로 쓰였다고 판단될 경우 욕설로 분류하지 않음
- 상황에 따라 욕일 수도 있고, 아닐 수도 있는 댓글은 최대한 비욕설로 구분
추가적인 자체 평가를 위해 유튜브 댓글 500개를 수집함.

유튜브댓글.csv

데이터 전처리

dataset.csv

transformers API로 데이터셋을 쉽게 뽑아 올 수 있고, 개수나 퀄리티 또한 챙길 수 있는 unsmile과 kmhas 두 데이터셋 선정
해당 데이터들은 혐오표현에 대한 종류로 라벨링 되어 있기 때문에, 라벨을 보고 Binary 형태로 재 인코딩
깨끗한 문장(=욕설이나 혐오표현이 없는 문장) 총 64289개, 욕설이나 혐오표현이 있는 curse 문장 총 64145개.
train:validate:test = 6:2:2로 나누어 학습 진행 ⇒ 학습 데이터를 늘리기 위해 아래 방법으로 진행
- 각 모델 별 총 77060개의 문장을 학습, 25686개의 문장으로 validation.
- 테스트 셋 또한 25688개의 문장이 있지만, 자원과 Inference 속도를 고려하여 이 중 1천개를 랜덤 샘플링하여 정확도 측정 (Unseen dataset)
train:vali date:test = 7:2:1 비율 로 최종 진행
- 각 모델 별 총 89903개의 문장을 학습, 25686개의 문장으로 validation.
- 마찬가지로 12845개의 테스트 문장 중에서 1천개를 랜덤 샘플링하여 정확도 측정

언어 모델 파인 튜닝 과정

klue-BERT, klue-roBERTa / KcBERT, KcElectra 를 각각 Tensorflow v2/PyTorch Lighting v2를 통해 파인튜닝함.