AI 안전 및 위험 감지 자료

Mind-Log v5.0 | 최종 업데이트: 2026-04-17 18:30

1. LMS v4.0 안전 아키텍처 개요

LMS v4.0은 4단계 TIER 구조로 설계되어 있으며, Safety 관련 기능은 다음과 같이 분산됩니다.

TIER	에이전트	안전 관련 역할	중요도
TIER 0	Intent Classifier	risk_flag 초기 판정, complexity_score 산출	높음
TIER 1	Safety Agent	위험 레벨 판정(L0~L4), safety_directives 생성, CRISIS 시 직접 사용자 응답	최고
TIER 2	Synthesis Agent	safety_directives 준수하여 응답 생성, _sources 블록에 safety 출처 표기	높음
TIER 3	Validator Agent	응답 안전성 재검증, 윤리성 확인, safety_compliance 검사	높음
TIER 4	Personalization Agent	safety_directives의 tone_policy 적용	중간

Safety Agent가 판정을 수행하기 전, 라우트 레벨의 정제 레이어가 모든 입력/출력을 스캔한다. 구현 위치: src/agents/shared/input_sanitizer.py, src/agents/shared/output_sanitizer.py.

주의: 초기 계획서의 "한국어 8종" 표기는 오기였으며, 실제 구현(src/agents/shared/input_sanitizer.py:12-29 INJECTION_PATTERNS)에는 한국어 6개, 영어 6개, 총 12개가 등록되어 있다.

동작 원칙:

영어 패턴 (6개):