made by blackon29.tistory

EDA 탐색적 자료 분석

특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목표를 달성해가는 과정으로, 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭 (시각화도 포함)

데이터마이닝

성능 평가 시,

데이터마이닝에서는 정확도, 정밀도, 디텍트 레이트(Detect Rate), 리프트(Lift) 등의 값으로 판단

시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 사용

데이터마트

데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있음

데이터마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만, 자체적으로 수집될수도 있으며, 관계형 데이터베이스나 다차원 데이터베이스를 이용해 구축한다

  1. 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수
  2. 파생변수 : 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수

reshape의 활용

reshape 패키지에는 melt()cast() 라는 2개의 핵심함수가 있음