1. 오늘 학습 키워드
종합복습반_데이터 전처리
- [x] 종합복습반_데이터 전처리 복습
- [x] 분석적 사고_2회차 복습
2. 오늘 학습 한 내용을 나만의 언어로 정리하기
종합복습반
데이터 전처리
- 전처리는 데이터를 믿을 수 있게 정리하는 과정
- 분포 요약 통계 상태로 정량화
- 간단 검정으로 무작위성/연관성 가늠
- 도메인 지식으로 이 값이 현실적으로 가능한 지 확인
- 삭제/대치/변환/캡핑/병합은 효과(편향, 분산, 해석성)을 바꾼다 → 모든 조치를 주석/노트(부록)로 남기기
발표 전에 정리 문서를 채팅창에 먼저 띄워주고 발표 시작하기
- 데이터타입은 곧 연산규칙 → 데이터 타입에 따라서 문법이 달라지기 때문
DataFrame/Series
df[”col”] → Series
df[[”col”]] → DataFrame
df.info() → 열 타입/결측 개수
df.describe(include=’all’) → 모든 컬럼에 대한 요약통계