인공지능의 시대가 열리면서, 국가에선 데이터댐 사업의 일환으로 요약데이터 구축해 나가고 있습니다. 하지만 제작의 주체가 사람이다보니 실수가 있을 수도 있으므로 데이터 검증을 통해 품질을 올리고자 합니다. 구체적인 검증 사항으로는 윤리적, 사회적, 정서적 등으로 부적절한 내용을 가이드 기반으로 검증하고자 합니다.
이를 통해 보다 높은 데이터 품질과 데이터를 통해 학습될 모델의 윤리적인 품질 향상을 기대할 수 있습니다.
1-1. (부적절한 내용) 혐오 혹은 차별적 내용, 선정적인 내용 반사회적 등을 포함한 대화는 데이터셋에 포함하지 않음
1-2. (불필요 발화) 이모티콘으로만 구성되었거나 ㅋㅋㅋ, ㅎㅎㅎ 등이 과도하게 사용된 대화를 제외함