EDA는 Exploratory Data Analysis의 약어로 탐색적 데이터 분석을 말한다. 데이터를 다양한 각도에서 관찰하고 이해하는 모든 과정을 말한다. 데이터 분석의 초기 분석 단계이며, 데이터를 분석하고 결과를 내는 과정에 있어 지속적으로 해당 데이터에 대한 **“탐색과 이해”**를 기본으로 가져가야 하기에 중요하다.
<aside> 💡
EDA 과정에 대한 주요 정의들
</aside>
John W. Tukey:
“EDA는 데이터를 요약하고, 시각화하며, 가설을 세우고 점검함으로써 데이터를 깊이 이해하는 과정이다.” → 모델이나 가설을 바로 세우는 게 아니라, 데이터 스스로가 말하게 하는 과정.
IBM Analytics:
“EDA는 데이터의 주요 특징을 이해하기 위해 통계 요약과 시각화를 활용하는 초기 분석 단계이다.”
→ 데이터 전처리와 모델링 사이의 필수 다리 역할.
<aside> 💡
고객 거래 데이터(예: 이커머스 구매 데이터)
고객ID | 나이 | 지역 | 거래금액 | 구매일자 | 이메일 |
---|---|---|---|---|---|
001 | 28 | 서울 | 50000 | 2025-08-01 | a@abc.com |
002 | 150 | 부산 | 0 | 2025-08-02 | NaN |
003 | 45 | 서울 | 1200000 | 2025-08-03 | b@xyz.com |
</aside> |
head()
로 고객 거래 데이터 앞부분을 확인해보니 거래금액이 0원인 행이 다수 발견됨 → 데이터 입력 오류 가능성 있음.describe()
로 살펴본 결과 고객 나이(age)가 150세로 기록된 값 발견 → 이상치 처리 필요.