<aside> 📌 목표 + To-do

</aside>

목표

  1. 길래튜터님 피드백 정리 : 가설/ 페르소나/ 결측치
  2. 데이터 전처리

To-Do

  1. 결측치 구하는 과정 자세하게 적기

  2. WBS 완성

  3. 가설 최종 확정

  4. 길래튜터님 질문 (가설/ 페르소나/ 결측치 피드백)

    가설 질문 -

    ☑ 한명이 전처리, 나머지는 가설 그룹핑한거 피드백 반영해 수정

    ☑ 컬럼을 복합적으로 보고 분석해 가설을 도출하기 → 최종 마무리

    ☑ 가설 관련해서 구체적 사례를 만들면 되는거.

    페르소나 질문 -

    <aside> 💡

    저번에는 간단하게 적으라고 말씀해주셨는데 예시는 좀 디테일한것같아서요! 어떻게 설정하는게 좋을지 다시 알려주시면 감사하겠습니다!

    페르소나는 가설에 대한 구체적인 시나리오 정도로 생각하시면 됩니다. 우리는 가설 위주로 정리하고 있기 때문에 페르소나는 깊이있게 신경쓰지 않으셔도 됩니다.

    </aside>

    결측치 질문 -

    <aside> 💡

    1. 연령대가 유의미한 데이터라고 생각해서 페르소나에 나이를 넣었는데 생년월일 결측치를 어떤걸로 대체하면 좋을지 알고싶습니다! 10개의 null값이라 drop을 해도 될지 혹은 중위수나 평균으로 대체하는 게 맞을까요?

    해당 유저 수가 적고, birthday가 분석의 주요 기준이라면 → drop 추천.

    </aside>

    <aside> 💡

    2.dropout_reason_detail 해당 사항이 없어서 NaN 값인 경우 어떻게 대체하면 좋을지? (null값 350개)

    dropout_reason_detail 컬럼의 결측치는 단순한 누락이 아닌, ‘자발적 사유가 적용되지 않는 유저’임을 의미하는 의도된 결측입니다.이는 dropout_reason_category가 '자발적'일 때만 세부 사유가 존재하기 때문에 발생한 구조적 특성입니다.따라서 이 NaN 값은 '무의미한 결측치'가 아니라 '해당 없음' 또는 '비자발적 사유'로 명시적으로 대체하는 것이 분석의 정확성과 해석의 일관성을 높일 수 있습니다.결국 이 문제는 단순 결측 처리라기보다, dropout_reason_detail 컬럼을 어떻게 범주화할지에 대한 전략적 판단이 핵심입니다.실무적으로도 이런 조건부 컬럼은 의미 기반 범주 재구성이 중요하며, 분석 목적에 따라 적절한 범주 설계가 필요합니다.

    </aside>