시험 요약 | Notion

<aside> 📢

시험 주관식은 쉬움..?🤔

<aside> 📢

1. 지도학습과 비지도학습 구분

사례를 보여주고 (강화 학습 빼고)

지도학습:

비지도학습:

2. 통계학적 분석 검증 과정

머신러닝 모델의 성능과 신뢰성을 검증하기 위한 필수 과정

3. 일반화의 근거

모델이 새로운 데이터에도 잘 작동할 것이라는 근거가 필요합니다

4. 의사결정나무와 k값

k는 k-NN 알고리즘에서 중요한 파라미터입니다. 의사결정나무는 이상치에 비교적 덜 민감한 특성이 있습니다.

5. 교차 검증 (Cross Validation)

모델의 일반화 성능을 평가하는 방법:

6. 의사결정나무 시각화 확인사항

시각화를 통해 다음을 확인할 수 있습니다:

7. 선형회귀 특징

선형회귀의 주요 가정:

8. 규제(Regularization)

과적합 방지를 위한 주요 규제 방법:

9. 정밀도와 재현율의 실생활 예시

실제 적용 사례:

독립 종속 같이 준다 → 지도 학습 (답은 준다) → 정답의 미묘한차이가 중요하지 않음

범주면 분류형

연속형 회귀

정답이 없음 → 비지도

차원 축소, 비슷한것 끼리 묶는 형태

지도 학습과 비슷하지만 완전한 정답을 주지 않음

테스트 데이터 비율 조금 과대 적합일어남

표준 편차 기반 (Standard Deviation)
- 데이터의 평균과 표준 편차를 계산하여, 일반적인 범위를 벗어난 데이터를 이상치로 간주합니다.
- 평균에서 3개의 표준 편차 이상 떨어진 데이터를 이상치로 판단할 수 있습니다.
- 예를 들어, 수학 점수가 주어졌을 때 전체 학생들의 평균 점수가 70점, 표준 편차가 5점이라고 가정합니다.
- 표준 편차 기반으로는 평균에서 3개의 표준 편차 이상 떨어진 85점 이상의 점수를 이상치로 판단할 수 있습니다.
사분위수 기반 (Interquartile Range, IQR)
- 데이터를 사분위수로 나눈 후, IQR을 계산하여 일반적인 범위를 벗어난 데이터를 이상치로 간주합니다.
- 데이터를 크기 순서대로 정렬한 후, 25번째 백분위수(Q1), 75번째 백분위수(Q3)를 계산합니다.
- IQR = Q3(75%) - Q1(25%), 일반적으로 Q1 - 1.5 * IQR 미만이나 Q3 + 1.5 * IQR 초과하는 데이터를 이상치로 판단합니다.
- 예를 들어, 주택 가격 데이터가 주어졌을 때 25번째 백분위수(Q1)가 200,000달러, 75번째 백분위수(Q3)가 500,000달러이라고 가정합니다.
- IQR을 계산하면 300,000달러이며, Q1 - 1.5 * IQR 미만이나 Q3 + 1.5 * IQR 초과하는 가격을 이상치로 간주할 수 있습니다.

지도 학습 (Supervised Learning)
- 레이블된 데이터를 사용하여 모델을 학습시키고, 새로운 데이터가 이 모델에서 얼마나 벗어나는지를 판단하여 이상치를 탐지합니다.
- 주로 이상치 탐지용 모델로는 Isolation Forest, One-Class SVM 등이 사용됩니다.
- 학습된 모델은 새로운 데이터가 기존 데이터와 다른 정도를 측정하여 이상치로 판단합니다.