made by blackon29.tistory
EDA 탐색적 자료 분석
특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목표를 달성해가는 과정으로, 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭 (시각화도 포함)
- 4가지 주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해 단계, 변수생성 단계, 변수선택 단계에서 사용됨
데이터마이닝
성능 평가 시,
데이터마이닝에서는 정확도, 정밀도, 디텍트 레이트(Detect Rate), 리프트(Lift) 등의 값으로 판단
시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 사용
데이터마트
데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있음
데이터마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될수도 있으며, 관계형 데이터베이스나 다차원 데이터베이스를 이용해 구축한다
- CRM 관련 업무 중에서 핵심 - 고객 데이터 마트 구축
- 동일한 데이터셋을 활용할 경우, 최신 분석기법들을 이용하면 분석가의 역량에서는 분석 효과가 크게 차이 나지 않기 때문에 데이터 마트를 어떻게 구축하느냐에 따라 분석효과가 크게 차이 남
- 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수
- 데이터마트에서 가장 기본적인 변수로, 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 만들어지는 변수임
- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음
- 간단한 구조이므로 자동화하여 상황에 맞게 사용
- 단점 : 얼마 이상이면 구매하더라도 기준값의 의미해석이 애매할 수 있음 → 연속형변수를 그룹핑해 사용하기
- ex. 기간별 구매금액, 횟수 여부, 위클리 쇼퍼, 상품별 구매순서, 단어빈도, 초기 행동변수, 트렌드 변수, 결측값과 이상값 처리, 연속형 변수의 구간화, 유통 채널별 구매 금액 등
- 파생변수 : 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 됨
- 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용됨
- 특정 상황에만 유의미하지 않고 대표성을 나타낼 수 있도록 함
- ex. 근무시간 구매지수, 주 구매매장 변수, 주 활동지역 변수, 구매상품 다양성 변수, 라이프스타일 변수, 행사민감 변수, 최대가치 변수, 최적 통화시간, 휴면가망 변수 등
reshape의 활용
reshape 패키지에는 melt() 와 cast() 라는 2개의 핵심함수가 있음
melt() : 원데이터 형태로 만드는 함수
cast() : 요약 형태로 만드는 함수