Hugging Face/Github 에서 한국어 혐오표현 관련 데이터셋을 수집함
Smilegate-ai 에서 배포한 Korean Unsmile Dataset
https://github.com/smilegate-ai/korean_unsmile_dataset
Coling 2022에서 공개된 K-MHaS Dataset
총 109,692개의 문장을 뉴스 댓글에서 수집하였으며, 자체적으로 다중 레이블링 함
72:20:8 비율로 train/test/validation 으로 구분
총 9개로 구분되며, 각 라벨은 다음과 같음.
0: Origin(출신차별), 1: Physical(외모차별), 2: Politics(정치성향차별), 3: Profanity(혐오욕설), 4: Age(연령차별), 5: Gender(성차별), 6: Race(인종차별), 7: Religion(종교차별) 8: Not Hate Speech(해당사항없는 문장)
K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment
[Validation] https://github.com/2runo/Curse-detection-data
추가적인 자체 평가를 위해 유튜브 댓글 500개를 수집함.