made by blackon29.tistory
데이터마이닝
대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법
cf. 통계분석은 가설이나 가정에 따른 분석이나 검증임
-
데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택해 활용가능함
-
알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없음
-
분석과제의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰하기
-
국내에서 데이터마이닝이 적용된 시기는 1990년대 중반
-
2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각됨
-
분석목적에 따른 작업유형과 기법
- 예측 (Predictive) → 분류규칙
- 설명 (Descriptive) → 연관규칙, 연속규칙, 데이터 군집화
-
데이터 가공 단계는 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계
-
지도학습(Supervised Data Prediction)
-
비지도학습(Unsupervised Data Prediction)
데이터 분할
- Training Data 50%, Validation Data 30%, Test Data 20%
- 일반적으로 test set에 대한 모형평가 결과가 train set에 대한 모형평가 결과보다 좋게 나타날지는 알 수 없음
- 데이터 양이 충분하지 않거나 입력변수에 대한 설명이 충분한 경우
- 홀드아웃(hold-out) 방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용 데이터와 시험용 데이터로 분리함 (모형평가방법으로도 쓰임)
- 교차확인(cross-validation) 방법 : 주어진 데이터를 k개의 하부집단으로 구분하여, k-1개의 집단을 학습용으로, 나머지는 하부집단으로 검증용으로 설정해 학습. k번 반복 측정한 결과를 평균값 낸 최종값으로 사용함 (ex. 10-fold 교차분석)
오분류에 대한 추정치

이진 분류에서의 혼동행렬
- 정분류율 Accuracy = (TP + TN) / (TP + FP + FN + TN)
- 오분류율 Error rate = 1 - Accuracy = (FN + FP) / (TP + FP + FN + TN)