파이썬 데이터 스케일링(표준화) 하기

데이터의 모든 특성의 범위를 같게 만들어주는 방법

교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다.

1. StandardScaler

from sklearn.preprocessingimport StandardScaler

# Standardization 평균 0 / 분산 1
scaler = StandardScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

2. MinMaxScaler

from sklearn.preprocessingimport MinMaxScaler

# Normalization 최소값 0 / 최대값 1
scaler = MinMaxScaler()

scaler = scaler.fit_transform(data)

# 교차검증시
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

3. RobustScaler