연구 배경
CommonCrawl은 현재 대부분의 대형 언어 모델(LLM) 학습에 핵심 데이터 소스로 활용되고 있다. 많은 기업들이 이 데이터를 기반으로 LLM을 학습시키고 있으나, CommonCrawl 자체의 내재적 편향성에 대한 분석은 상대적으로 부족한 상황이다. 현재까지의 연구들은 다음과 같은 한계점을 보이고 있다:
- CommonCrawl의 내재적 편향성이 충분히 분석되지 않음
- 기존 필터링 방식(언어 필터링, 키워드 기반 필터링 등)이 특정 커뮤니티의 콘텐츠를 과소 대표할 위험성 존재
- 모델 단에서의 편향 감소 노력이 데이터 원천의 편향을 근본적으로 해결하지 못함
연구 내용 및 방법론
본 연구는 FAIR-SE(Framework for Analyzing Information dispaRities in Search Engine) 프레임워크의 방법론을 활용하여 CommonCrawl 데이터셋의 편향성을 분석하고, 이것이 LLM의 공정성에 미치는 영향을 파악하는 것이다.
1. CommonCrawl 데이터셋 탐색 및 샘플링
- 대표적인 주제 영역별 데이터 샘플 추출 (정치, 사회, 과학, 문화 등)
- 시간대별, 도메인별, 언어별 데이터 분포 분석
- 데이터 정제 및 메타데이터 추출
2. LLM 페르소나 기반 다차원 분석
FAIR-SE의 방법론을 적용하여 다음 관점에서 콘텐츠 분석:
- Political Leaning(좌-중-우): CommonCrawl 내 콘텐츠의 정치적 성향 분포
- Topic-specific Stance(찬성-중립-반대): 논쟁적 주제(이민, 기후변화, 낙태 등)에 대한 입장 분포
- Subjectivity(주관적-객관적): 콘텐츠의 주관성/객관성 분포
- Bias(편향-비편향): 명시적/암묵적 편향 분포
3. 편향성 분석 및 패턴 발견
- 주요 논쟁적 주제에 대한 4가지 분석 관점별 편향성 측정
- 토픽별, 도메인별, 시간대별 편향성 패턴 식별
- 통계적 유의성 검증을 통한 편향 패턴의 객관적 평가