연구 배경

현재 웹 데이터 수집 방식은 대표성과 공정성 측면에서 많은 한계점을 가지고 있다. LLM 학습에 사용되는 데이터셋의 품질과 공정성은 결과적으로 모델의 성능과 편향성에 직접적인 영향을 미치게 된다. 기존 데이터셋 구축 방식의 한계점은 다음과 같다:

연구 내용 및 방법론

본 연구는 FAIR-SE의 LLM 페르소나 기반 분석 방법론을 활용하여 웹 데이터를 다차원 공간으로 매핑하고, 공정성을 고려한 데이터셋 구축 방법론을 개발하는 것이다.

1. 웹 데이터 수집 및 준비

2. LLM 페르소나 기반 다차원 분석 FAIR-SE 프레임워크에서 제시한 방법론을 활용하여:

3. 다차원 공간 매핑 및 시각화