인턴 모집 공고

1. 연구 주제명

"Bias Drift Across Frontier Model Generations: 동일 모델 패밀리 버전 간 정치 편향 진화의 첫 대규모 종단 측정" (Bias Drift: A Longitudinal Study of Political Bias Evolution Across Frontier LLM Generations)

2. 한 줄 요약

<aside> 💡

GPT-3.5 → GPT-4 → GPT-4o → GPT-5, Claude 2 → 3 → 3.5 → 4 → Opus 4.6, Gemini 1 → 2 → 3 등 동일 모델 패밀리의 버전 진화 과정에서 정치 편향이 어떻게 변화·수렴·발산하는지를 archived API + 본 연구실의 dual external judge 평가로 첫 대규모 종단 측정하고, "LLM이 점점 편향이 줄어드는가 늘어나는가"의 사회적 질문에 정량 답을 제공한다.

</aside>

3. 핵심 도식

4. 연구 개요 및 목표

배경: LLM의 정치적 편향은 Rozado (2024 PloS ONE), Hartmann et al. (2023), 본 연구실 FAIR-SE [1] 등 다수 연구에서 보고되어 왔다. 그러나 이 측정들은 모두 단일 시점 스냅샷이다. OpenAI·Anthropic·Google이 "각 새 버전에서 alignment를 개선"한다고 주장하지만, 실제로 정치 편향이 버전 진화로 어떻게 변하는지의 종단 측정은 부재하다. 본 연구실의 LLM 편향 인과관계 분석 연구 [5]는 학습 데이터 방향이 편향에 인과적으로 영향을 주고 counter-CPT로 부분 복원됨을 보였다 — 같은 관점에서 alignment 단계의 누적 효과는 버전 간 자연 실험으로 측정 가능하다.
문제:
- 동일 모델 패밀리의 버전 변화가 정치 편향을 (a) 감소시켰는가, (b) 늘렸는가, (c) 다른 방향으로 이동시켰는가에 대한 종단 측정 부재.
- 각 frontier 회사의 alignment 정책 변화(예: 2024 OpenAI Spec, 2024 Anthropic Constitutional AI v2)가 실제 응답에 어떻게 보이는지 외부 측정 부재.
- 회사별 차이: OpenAI는 점점 중도화, Anthropic은 점점 좌편향, Google은? 의 정량 답 부재.
- 버전 간 Stance-Framing Dissociation (LLM 편향 인과관계 분석 연구[5]의 𝒟) 의 변화 — 새 버전이 stance는 균형화하면서 framing은 못 하는 패턴이 있는가?
목표:
- 5+ 모델 패밀리 × 3~5개 버전 = 약 25개 모델 시점 평가.
  - OpenAI: GPT-3.5-turbo, GPT-4-0613, GPT-4o, GPT-4.1, GPT-5
  - Anthropic: Claude-2, Claude-3-opus, Claude-3.5-sonnet, Claude-4-opus, Claude-Opus-4.6
  - Google: Gemini-1.0-Pro, Gemini-1.5-Pro, Gemini-2.0-Flash, Gemini-3-Pro
  - Meta: Llama-2-70B, Llama-3-70B, Llama-3.1-405B, Llama-3.3
  - 한국어: HyperCLOVA-X 초기 → Solar Pro → 최신
- 본 연구실 LLM 편향 인과관계 분석 연구 [5]의 평가 rubric 그대로 적용 — Issue 16 토픽 + Framing 14 토픽 + dual judge (gpt-4.1-mini + claude-3-5-haiku).
  - 평가 rubric 변경 가능
- 5개 핵심 지표 매트릭스:
  1. Default Score — 각 버전의 기본 정치 score (1=strong left, 5=strong right).
  2. Variance Across Topics — 토픽별 편향 분포의 범위.
  3. Stance-Framing Dissociation 𝒟 — CIKM 2026 short 논문 [5] 정의 그대로.
  4. Refusal Rate — 모델이 정치 질문에 답변 거부하는 빈도.
  5. Calibration vs Public Opinion — 미국 Pew, 한국 KGSS 여론과의 거리.
- 버전 간 변화점 식별 — 어느 버전 사이에서 큰 편향 변화가 일어났는가? 회사의 alignment 정책 변경 시점과 매핑.
- 첫 대규모 종단 데이터로 NYT·Wired·BBC 등 대중매체 직접 인용 가능한 결과 산출.

5. 실험 설계

버전 확보 전략 (핵심 챌린지)
- OpenAI: 일부 deprecated 모델은 API에 남아 있음 (gpt-3.5-turbo-0613 등). HuggingFace에 community archived weights도 일부 존재.
- Anthropic: claude-2.1, claude-3-opus-20240229 등 버전 명시 가능. 최신 모델은 항상 latest tag.
- Google: Gemini는 versioned endpoint 제공.
- Meta: Llama 시리즈는 HuggingFace에서 직접 로드.
- Wayback Machine + 자체 archived response log + OpenRouter (다수 deprecated 모델 호스팅).
- 본 연구실 6-arm CPT 모델 [5] 도 비교: alignment가 없는 baseline으로 활용.
**평가 셋 (**LLM 편향 인과관계 분석 연구 [5]과 동일 — replication + 종단 확장)
- Issue 16 토픽 (minimum wage, immigration, abortion, gun control 등) — 4-6문장 자유응답.
- Framing 14 토픽 — 중립 facts brief → Headline + 2-sentence Lead.
**채점 (**LLM 편향 인과관계 분석 연구 [5]의 dual judge 직접 재사용)
- gpt-4.1-mini + claude-3-5-haiku-latest, temperature=0, blind 채점.
- 1~5 척도, left_anchor·right_anchor 명시.
- 10회 반복 → judge_mean_score, judge_abs_gap, judge_agreement_binary.
종단 분석
- Drift Curve — 패밀리별 score의 시계열 plot. X=버전 발표일, Y=평균 score.
- 회사 간 비교 — OpenAI vs Anthropic vs Google의 drift 방향.
- Stance-Framing Dissociation 𝒟 의 종단 변화 — 새 버전이 stance는 균형화하지만 framing은 못하는 패턴 검증.
- Topic-Level Drift Heatmap — 어느 토픽의 편향이 가장 많이 변했는가.
- Refusal Rate Drift — 새 버전이 정치 질문에 더 회피적인가?
외부 사건 매핑
- OpenAI Model Spec 발표 (2024 May, 2025), Anthropic Constitutional AI v2 (2024), Bing Chat 사건, 각종 모델 RLHF 정책 변화 timeline과 변화점 매핑.
검증
- 반복성 — 같은 모델 같은 prompt를 1주 간격으로 재측정. 모델 silent update 영향 식별.
- 시드 안정성 — temperature=0 + multiple seed 호출 비교.
- 다국어 cross-check — 영어 / 한국어 동일 질문에서 drift 방향이 같은가?

6. 연구실 선행연구

[CIKM2025] Jaebeom You, et al., "FAIR-SE" — 8 페르소나 어노테이션 워크플로우 차용.