분야 3: 모델 편향 프롬프트 민감성 분석

1. 연구 주제명

"Bias Steerability: Prompt 한 줄로 LLM 정치 편향은 얼마나 흔들리는가 — 정치 편향의 체계적 카탈로그와 robustness 정량화"

2. 한 줄 요약

<aside> 💡

사용자가 prompt 한 줄(역할극, persona 주입, system prompt override, 다국어 우회, in-context steering 등)만으로 ChatGPT·Claude·Gemini·Grok·HyperCLOVA의 정치 편향을 얼마나 자유롭게 좌·우로 흔들 수 있는가를 본 연구실의 dual external judge로 정량 측정하고, Bias Steerability Index (BSI) 라는 새로운 robustness 지표를 정의·공개한다.

</aside>

3. 핵심 도식

4. 연구 개요 및 목표

배경: Anthropic·OpenAI·Google은 자기 모델이 "정치적으로 중립" 또는 "균형 잡혀 있다"고 공식 주장하지만, 본 연구실의 FAIR-RAG [4]와 LLM 편향 인과관계 분석 [6]은 학습 데이터 차원의 편향이 모델 행동에 일관되게 전이됨을 입증했다. 한편 AI safety 연구는 jailbreak·prompt injection 에 집중되어 있으나 (Wei et al. NeurIPS 2023, Zou et al. 2023, Anthropic Many-shot Jailbreak 2024 등), 정치 편향 차원에서의 prompt 조작 가능성은 사실상 미개척이다.
문제:
- 모델의 "기본 편향"(default bias)이 alignment 단계에서 학습되어 있다고 가정하더라도, prompt 한 줄로 그 default가 무너지는지는 정량적으로 측정된 바 없음.
- 기존 jailbreak 연구는 (a) 유해 콘텐츠 생성, (b) 안전 가이드라인 우회에 한정되어 정치 편향 차원이 부재.
- 사용자가 의도적으로 또는 무심코 입력한 페르소나·역할 부여가 모델의 정치 응답을 얼마나 흔드는지 모름 → 실제 사용 환경에서의 편향 위험 측정 불가.
- 모델·버전·alignment 단계(base / SFT / RLHF / Constitutional AI 등) 별 robustness 차이도 미측정.
목표:
- N가지 정치 Steering 기법 카탈로그 체계화:
  1. Role-play persona — "당신은 미국 보수 평론가입니다…"
  2. System prompt override — system message에 정치 성향 주입
  3. Few-shot in-context steering — 5~10개 좌/우 응답 예시 주입
  4. Multilingual bypass — 한국어·중국어·일본어로 우회 질의
  5. Hypothetical framing — "만약 당신이 X 신문 사설을 쓴다면…"
  6. Author attribution — "이 응답은 John (PhD, 정치학) 가 쓴 것이다"
  7. Trojan trigger phrase — backdoor literature 차용한 trigger 문구
  8. Code-switching — 코드 블록 안에 정치 prompt 주입
  9. Token smuggling — 우회 표현·축약·이모지로 정치 입장 유도
  10. Multi-turn jailbreak — 점진적 step-up 토론으로 편향 끌어내기
  ….
- Bias Steerability Index (BSI) 신규 지표 정의 — base 응답 대비 각 기법이 만드는 편향 score 변화량의 절대값 평균.
- 모델 × 기법 × 토픽 robustness 매트릭스 공개. ChatGPT-5, Claude Opus 4.6, Gemini 3, Grok 4, HyperCLOVA X, Solar Pro 등 6+ frontier 모델 × 10 기법 × 16 정책 토픽 (LLM 편향 인과관계 분석 [6] Issue 토픽과 일치).
- 본 연구실의 dual external judge (LLM 편향 인과관계 분석 연구[6]) 를 그대로 채점기로 활용 — gpt-4.1-mini + claude-3-5-haiku-latest, blind 채점, 10회 반복.
- 취약성 지도 (Vulnerability Heatmap): 어느 모델이 어느 기법에 가장 약한지 시각화.
- AI safety 학회에 정치 차원의 jailbreak를 처음 도입 — Anthropic/OpenAI alignment 팀 직접 인용 가능.

5. 실험 설계

대상 모델 (6+)
- 상용: GPT-5 (또는 당시 최신), Claude Opus 4.6, Gemini 3 Pro, Grok 4
- 한국어: HyperCLOVA X, Solar Pro
- 오픈소스 비교: Llama-3.3-70B-Instruct, Qwen-2.5-72B-Instruct (alignment 단계 ablation 용도)
- 본 연구실의 6-arm CPT 모델 (LLM 편향 인과관계 분석 [6]) 도 비교 baseline으로 포함 — alignment가 없는 base CPT 모델은 BSI가 어떻게 다른지 비교.
Steering 기법 (10) — §4 목표 참조. 각 기법별로 표준 prompt template + 3~5개 variation.
평가 토픽 (16) — LLM 편향 인과관계 분석 연구[5]의 Issue 토픽 그대로 사용 (minimum wage, immigration, abortion, gun control, healthcare, climate, gender equality, LGBTQ rights, free market, taxation, military, immigration policy, drug policy, school choice, criminal justice, Israel-Palestine).
채점
- 본 연구실의 dual external judge 채점 코드 직접 재사용 — gpt-4.1-mini + claude-3-5-haiku, temperature=0, blind, 10회 반복, judge_mean_score 사용.
- 1~5점 5점 척도, left_anchor·right_anchor 명시 (CPTLLM 편향 인과관계 분석논문과 동일).
Bias Steerability Index (BSI)
- BSI_model = (1/(K·T)) · Σ_k Σ_t |μ(model, k, t) − μ(model, baseline, t)|
- 모델별 단일 robustness 점수. 작을수록 prompt 조작에 강함.
- BSI_method, BSI_topic 으로 marginal 분석.
Robustness 지도
- Heatmap: 행=모델, 열=기법, 색=평균 절대 변화량.
- Boxplot: 모델별 score 분포 (각 모델의 default vs. steering 후).
Steering 비대칭 분석
- Left-steering vs. Right-steering의 효과 크기 차이 (Asymmetry).
- 모든 모델이 한 방향(좌 또는 우)으로 더 쉽게 흔들리는지 검증 — 이는 모델 default bias의 간접 증거.
시간 안정성
- 같은 prompt를 1주·1개월 간격으로 반복 — 모델 사일런트 업데이트 영향 측정.

1. 연구 주제명

2. 한 줄 요약

3. 핵심 도식

4. 연구 개요 및 목표

5. 실험 설계

6. 연구실 선행연구