연구 배경

CommonCrawl은 현재 대부분의 대형 언어 모델(LLM) 학습에 핵심 데이터 소스로 활용되고 있다. 많은 기업들이 이 데이터를 기반으로 LLM을 학습시키고 있으나, CommonCrawl 자체의 내재적 편향성에 대한 분석은 상대적으로 부족한 상황이다. 현재까지의 연구들은 다음과 같은 한계점을 보이고 있다:

연구 내용 및 방법론

본 연구는 FAIR-SE(Framework for Analyzing Information dispaRities in Search Engine) 프레임워크의 방법론을 활용하여 CommonCrawl 데이터셋의 편향성을 분석하고, 이것이 LLM의 공정성에 미치는 영향을 파악하는 것이다.

1. CommonCrawl 데이터셋 탐색 및 샘플링

2. LLM 페르소나 기반 다차원 분석 FAIR-SE의 방법론을 적용하여 다음 관점에서 콘텐츠 분석:

3. 편향성 분석 및 패턴 발견