연구 배경
현재 웹 데이터 수집 방식은 대표성과 공정성 측면에서 많은 한계점을 가지고 있다. LLM 학습에 사용되는 데이터셋의 품질과 공정성은 결과적으로 모델의 성능과 편향성에 직접적인 영향을 미치게 된다. 기존 데이터셋 구축 방식의 한계점은 다음과 같다:
- 단순 품질 기반 필터링이 다양한 관점과 콘텐츠의 균형을 보장하지 못함
- 데이터 필터링 과정이 특정 커뮤니티나 관점의 콘텐츠를 과소 대표할 위험성 내포
- 웹 데이터의 다차원적 특성을 효과적으로 표현하고 활용하는 방법론 부족
- 공정성을 고려한 체계적인 데이터셋 샘플링 방법론의 부재
연구 내용 및 방법론
본 연구는 FAIR-SE의 LLM 페르소나 기반 분석 방법론을 활용하여 웹 데이터를 다차원 공간으로 매핑하고, 공정성을 고려한 데이터셋 구축 방법론을 개발하는 것이다.
1. 웹 데이터 수집 및 준비
- 다양한 소스(뉴스, 블로그, 포럼, 학술 자료 등)에서 주제별 웹 데이터 수집
- CommonCrawl 등 대규모 웹 데이터셋 활용
- 메타데이터 추출 및 기본적인 텍스트 정제 작업
2. LLM 페르소나 기반 다차원 분석
FAIR-SE 프레임워크에서 제시한 방법론을 활용하여:
- Political Leaning (좌-중-우): 정치적 성향 점수 (-1 ~ 1)
- Topic-specific Stance (반대-중립-찬성): 특정 주제에 대한 입장 점수 (-1 ~ 1)
- Subjectivity (주관적-객관적): 객관성 정도 점수 (-1 ~ 1)
- Bias (편향-비편향): 편향성 정도 점수 (-1 ~ 1)
3. 다차원 공간 매핑 및 시각화
- 벡터 임베딩 접근법:
- 4개 분석 차원을 기본 축으로 하는 다차원 벡터 공간 구성
- 추가적인 의미적 특성(토픽 분포, 감성 등)을 보조 차원으로 활용
- 차원 축소 기법(PCA, t-SNE, UMAP 등)을 통한 시각화와 분석
- 그래프 기반 접근법:
- 문서를 노드로, 유사성을 엣지로 표현하는 그래프 구조 생성
- 다양한 특성(정치적 성향, 주제별 입장 등)을 노드 속성으로 부여
- 커뮤니티 탐지 알고리즘을 통한 콘텐츠 클러스터 파악