<aside>
📢
시험
주관식은 쉬움..?🤔
- 모두 고르시오
- 지도 학습 비 지도 학습 구분
- 블로그글 → 비지도 학습 (군집화)
- 통계학적 분석 검증의 과정을 거친다
- 일반화의 근거?🤨
- 일반 데이터와 분류 이유
- 의사 결정 나무 에서 k 가 중요한가?
- 이상치? 덜 영향?
- 교차 검증
- 의사결정 나무 시각화 → 무엇을 확인가능?
- 선형회귀 특징
- 규제들
- 정밀도, 재현율 → 실생활에서
</aside>
<aside>
📢
1. 지도학습과 비지도학습 구분
사례를 보여주고 (강화 학습 빼고)
지도학습:
- 독립변수와 종속변수가 함께 제공됨
- 범주형 데이터는 분류 문제로 접근
- 연속형 데이터는 회귀 문제로 접근
비지도학습:
- 정답(레이블)이 제공되지 않음
- 주요 기법: 차원 축소, 군집화
- 예: 블로그 글 군집화
2. 통계학적 분석 검증 과정
머신러닝 모델의 성능과 신뢰성을 검증하기 위한 필수 과정
- 데이터 품질 검증
- 모델 성능 평가 지표 분석
- 과적합 여부 확인
- 모집단의 특성 파악하기
3. 일반화의 근거
모델이 새로운 데이터에도 잘 작동할 것이라는 근거가 필요합니다
- 훈련 데이터와 테스트 데이터의 분포가 유사해야 함
- 데이터가 충분히 많고 대표성이 있어야 함
- 적절한 특성 선택과 전처리가 수행되어야 함
4. 의사결정나무와 k값
k는 k-NN 알고리즘에서 중요한 파라미터입니다. 의사결정나무는 이상치에 비교적 덜 민감한 특성이 있습니다.
5. 교차 검증 (Cross Validation)
모델의 일반화 성능을 평가하는 방법:
- 데이터를 k개의 폴드로 나눔
- k-1개로 학습, 1개로 검증을 반복
- 모든 데이터가 검증 세트로 한 번씩 사용됨
6. 의사결정나무 시각화 확인사항
시각화를 통해 다음을 확인할 수 있습니다:
- 노드별 분기 기준과 임계값
- 각 특성의 중요도
- 트리의 깊이와 복잡도
- 각 노드의 샘플 수와 순도
7. 선형회귀 특징
선형회귀의 주요 가정:
- 선형성: 독립변수와 종속변수는 선형 관계
- 독립성: 오차항은 서로 독립
- 등분산성: 오차의 분산이 일정
- 정규성: 오차는 정규분포를 따름
8. 규제(Regularization)
과적합 방지를 위한 주요 규제 방법:
- L1(Lasso): 일부 계수를 0으로 만들어 특성 선택 효과
- L2(Ridge): 계수를 작은 값으로 제한
- Elastic Net: L1과 L2의 조합
9. 정밀도와 재현율의 실생활 예시
실제 적용 사례:
- 정밀도 중심: 스팸 메일 분류 (오탐지 최소화)
- 재현율 중심: 질병 진단 (미탐지 최소화)
</aside>
독립 종속 같이 준다 → 지도 학습 (답은 준다) → 정답의 미묘한차이가 중요하지 않음
범주면 분류형
연속형 회귀
정답이 없음 → 비지도
차원 축소, 비슷한것 끼리 묶는 형태
지도 학습과 비슷하지만 완전한 정답을 주지 않음
테스트 데이터 비율 조금 과대 적합일어남
통계적 방법 (Statistical Methods)
- 표준 편차 기반 (Standard Deviation)
- 데이터의 평균과 표준 편차를 계산하여, 일반적인 범위를 벗어난 데이터를 이상치로 간주합니다.
- 평균에서 3개의 표준 편차 이상 떨어진 데이터를 이상치로 판단할 수 있습니다.
- 예를 들어, 수학 점수가 주어졌을 때 전체 학생들의 평균 점수가 70점, 표준 편차가 5점이라고 가정합니다.
- 표준 편차 기반으로는 평균에서 3개의 표준 편차 이상 떨어진 85점 이상의 점수를 이상치로 판단할 수 있습니다.
- 사분위수 기반 (Interquartile Range, IQR)
- 데이터를 사분위수로 나눈 후, IQR을 계산하여 일반적인 범위를 벗어난 데이터를 이상치로 간주합니다.
- 데이터를 크기 순서대로 정렬한 후, 25번째 백분위수(Q1), 75번째 백분위수(Q3)를 계산합니다.
- IQR = Q3(75%) - Q1(25%), 일반적으로 Q1 - 1.5 * IQR 미만이나 Q3 + 1.5 * IQR 초과하는 데이터를 이상치로 판단합니다.
- 예를 들어, 주택 가격 데이터가 주어졌을 때 25번째 백분위수(Q1)가 200,000달러, 75번째 백분위수(Q3)가 500,000달러이라고 가정합니다.
- IQR을 계산하면 300,000달러이며, Q1 - 1.5 * IQR 미만이나 Q3 + 1.5 * IQR 초과하는 가격을 이상치로 간주할 수 있습니다.
기계학습 기반 (Machine Learning-Based Methods)
- 지도 학습 (Supervised Learning)
- 레이블된 데이터를 사용하여 모델을 학습시키고, 새로운 데이터가 이 모델에서 얼마나 벗어나는지를 판단하여 이상치를 탐지합니다.
- 주로 이상치 탐지용 모델로는 Isolation Forest, One-Class SVM 등이 사용됩니다.
- 학습된 모델은 새로운 데이터가 기존 데이터와 다른 정도를 측정하여 이상치로 판단합니다.