1. 주제선정하기

image.png

  1. 데이터 뜯어보기

가설 설정을 먼저하고 들어가는게 정석이라지만 도저히 뭔말인지 몰라서 뜯오보기 시작함.

1. 각 CSV 파일 불러오기

df1 = pd.read_csv('/content/conversion_status.csv')

df2 = pd.read_csv('/content/product_interaction.csv')

df3 = pd.read_csv('/content/user_session_info.csv')# 2. user_id 기준으로 병합 (예: inner join으로 모두 겹치는 user_id만)

merged_df = df1.merge(df2, on='user_id', how='inner').merge(df3, on='user_id', how='inner')# 3. 중복 user_id 찾기 (user_id가 여러 번 나오는 경우)

duplicate_user_ids = merged_df[merged_df.duplicated('user_id', keep=False)]['user_id'].unique()print("중복된 user_id 목록:")

print(duplicate_user_ids)# 혹은 중복 user_id별 행 출력 (중복된 모든 행)

print("중복 user_id별 데이터:")

merged_df[merged_df.duplicated('user_id', keep=False)]

팀원의 코드

interaction_df = pd.read_csv("product_interaction.csv")conversion_df = pd.read_csv("conversion_status.csv")user_df = pd.read_csv("user_session_info.csv")