[요약대회] 품질검증서

실행 시 사용한 것들

0. 개요

인공지능의 시대가 열리면서, 국가에선 데이터댐 사업의 일환으로 요약데이터 구축해 나가고 있습니다. 하지만 제작의 주체가 사람이다보니 실수가 있을 수도 있으므로 데이터 검증을 통해 품질을 올리고자 합니다. 구체적인 검증 사항으로는 윤리적, 사회적, 정서적 등으로 부적절한 내용을 가이드 기반으로 검증하고자 합니다.

이를 통해 보다 높은 데이터 품질과 데이터를 통해 학습될 모델의 윤리적인 품질 향상을 기대할 수 있습니다.

1. 가이드에 적법하지 않은 반례

아래 사항들은 AI-HUB 요약데이터 구축 가이드의 1.6.2 제약조건을 기반으로 만들었습니다.
반례 기록한 시트

AI-HUB 요약 데이터 가이드 반례

1-1. (부적절한 내용) 혐오 혹은 차별적 내용, 선정적인 내용 반사회적 등을 포함한 대화는 데이터셋에 포함하지 않음

욕설 : 시발 , 씨발, ㅅㅂ , ㅆㅂ, 지랄, 개새끼 , ㅂ1ㅅ, 저능아 ,병신 , 옘병 , 듣보잡, 하타치, 썅년, 미친, 씹새끼, 븅신, 좆, 개같은, 존나, 찐따,
선정적인 내용 , 반사적 : 꼬추, 은꼴 , ㅗㅜㅑ, 한남 , 고자 , 김치녀 , 계집, 얼빠, 꼭지, 물소 , 페미, 일베

1-2. (불필요 발화) 이모티콘으로만 구성되었거나 ㅋㅋㅋ, ㅎㅎㅎ 등이 과도하게 사용된 대화를 제외함

다양한 갯수의 ㅋ 대화 내용 존재하여 몇개 기준이 과도한 건 지 불분명함.
- 초성으로만 된 대화 내용 워드 클라우드

스크린샷 2021-11-22 오후 11.58.52.png