(번외)데이터들이 서로 다른지 확인

✅ 1. 기본 비교 결과 요약

항목	1000_chg	1001_chg	차이 여부
행(row) 수	6009	6008	✅ 1줄 차이
열(column) 수	208개	208개	✅ 동일
컬럼 이름	완전히 동일	완전히 동일	✅ 동일
평균값	약간의 차이 존재	예: `Tavg`, `M01CV01` 등	✅ 미세 차이
시각화 패턴	전반적으로 유사한 곡선	거의 겹침	✅ 유사하지만 약간 다름

🔍 해석: 왜 이런 차이가 날까?

이 두 데이터는 구조상 거의 동일한 조건에서 충전된 정상 배터리일 가능성이 높지만,

약간의 센서 값 차이, 혹은 배터리 셀 개체 차이, 또는 충전 시 주변 환경의 미세한 변화 등이 반영된 것으로 보임

예를 들어:
- Tavg가 1000은 34.64도, 1001은 34.22도 → 약 0.4도 차이
- M01CV01도 미세한 전압 차이 존재
- 시각적으로도 거의 일치하되, 충전 말기에서 살짝 flatten 되는 시점의 형태가 다름

✅ 결론: 두 파일은 어떤 관계인가?

항목	해석
같은 구조	동일한 센서 구조, 동일한 충전 시나리오 사용
미세한 값 차이	배터리의 개체 차이 또는 센서 오차
전부 정상이지만 조금씩 다름	따라서 한 개만 훈련에 쓰는 것보다 여러 개를 함께 쓰는 것이 모델 일반화에 유리함

🧠 추천 방향

앞으로는 1000_chg.csv 하나만 쓰기보다는,

1000 ~ 1050까지 모두 병합하여 훈련셋으로 구성하면 더욱 강력한 모델을 만들 수 있어요.

병합 예시

import glob
import pandas as pd

file_paths = glob.glob('./data/raw_data/train/10*_chg.csv')
df_list = [pd.read_csv(fp) for fp in file_paths]
df_train_all = pd.concat(df_list, ignore_index=True)

print(df_train_all.shape)

필요하시면 병합 후 전처리, 이상 탐지 모델 학습까지 이어서 같이 정리해드릴게요!