Logistic Regression (로지스틱 회귀)

이름은 로지스틱 회귀이지만 분류

1. 개념 & 특징

분류(classification) 문제에 쓰는 가장 기본적이면서 강력한 모델
“이게 A냐 B냐?”

(예: 스팸/정상, 합격/불합격, 양성/음성 등 “둘 중 하나”)
0~1 사이의 “확률”로 결과 예측

→ 0.5 넘으면 A, 아니면 B 처럼 자동 분류

2. 어디에, 어떻게 많이 쓰나?

이진 분류(Yes/No, 1/0, 스팸/비스팸 등) 문제에 최적
문자·텍스트 분류 (감정분석, 스팸, 뉴스 주제, 챗봇 등)
의학(질병 유무), 금융(부도/정상), 마케팅(구매/비구매) 등
다중 분류도 확장 가능(“softmax” 옵션 사용)

3. 대표 파라미터 (옵션)

아래는 scikit-learn 기준 주요 파라미터

파라미터	의미/설명	추천값/예시
`penalty`	규제 방식(L1/L2) - 과적합 방지	'l2'(기본), 'l1'
`C`	규제 강도(작을수록 강하게 규제)	1.0(기본), 0.1~10
`solver`	계산 방식(알고리즘)	'lbfgs'(기본), 'liblinear', 'saga', 등
`max_iter`	반복 횟수(최대 학습 반복 수)	100(기본), 200 등
`random_state`	결과 재현성 위해 난수 시드 고정	0, 42 등
`multi_class`	다중 분류 방식(‘auto’, ‘ovr’, ‘multinomial’)	'auto'(기본)
`fit_intercept`	절편(상수항) 추가 여부	True(기본)

1️⃣ L1 vs L2 규제(패널티)의 차이

구분	L1(라쏘, Lasso)	L2(릿지, Ridge)
의미	가중치(계수)의 “절댓값” 합 규제	가중치(계수)의 “제곱” 합 규제
특징	불필요한 피처(특징)는 0으로 만듦 → 변수 선택 효과, “스파스(sparse)” 모델 단순화	모든 피처를 부드럽게 작게 만듦 → 계수를 0에 가깝게만(완전히 0은 적음)
언제?	피처(특징) 많고, 필요 없는 게 많을 때불필요한 변수 자동 제거 효과	피처가 모두 중요할 때과적합만 부드럽게 방지
실전	변수 선택, 희소모델 만들기	일반적인 분류/회귀