Mind-Log v5.0 | 최종 업데이트: 2026-04-17 18:30


1. LMS v4.0 안전 아키텍처 개요

LMS v4.0은 4단계 TIER 구조로 설계되어 있으며, Safety 관련 기능은 다음과 같이 분산됩니다.

TIER 에이전트 안전 관련 역할 중요도
TIER 0 Intent Classifier risk_flag 초기 판정, complexity_score 산출 높음
TIER 1 Safety Agent 위험 레벨 판정(L0~L4), safety_directives 생성, CRISIS 시 직접 사용자 응답 최고
TIER 2 Synthesis Agent safety_directives 준수하여 응답 생성, _sources 블록에 safety 출처 표기 높음
TIER 3 Validator Agent 응답 안전성 재검증, 윤리성 확인, safety_compliance 검사 높음
TIER 4 Personalization Agent safety_directives의 tone_policy 적용 중간

핵심 원칙: Safety Agent = 유일한 안전 책임자


1-A. 입력 정제 레이어 — 프롬프트 인젝션 방어 & PII 마스킹 (PR #142)

Safety Agent가 판정을 수행하기 전, 라우트 레벨의 정제 레이어가 모든 입력/출력을 스캔한다. 구현 위치: src/agents/shared/input_sanitizer.py, src/agents/shared/output_sanitizer.py.

1-A.1 프롬프트 인젝션 패턴 — 총 12개 (영어 6 + 한국어 6)

주의: 초기 계획서의 "한국어 8종" 표기는 오기였으며, 실제 구현(src/agents/shared/input_sanitizer.py:12-29 INJECTION_PATTERNS)에는 한국어 6개, 영어 6개, 총 12개가 등록되어 있다.

동작 원칙:

영어 패턴 (6개):