주어진 문제 이해

⚠️배경 및 문제 개요

새로운 기능을 고객에게 선보이기 전에 테스트해보고자 함. 이를 통해 분석가와 프로덕트 매니저는 특정 기능의 효과성을 고객 행동, 고객 경험 관점에서 더욱 잘 이해할 수 있음
테스트 기간: 2014. 6. 1. - 2014. 6. 30.
테스트 그룹: control 그룹(구버전의 publisher 이용) - treatment 그룹(새버전의 publisher 이용)
우리가 이해한 실험의 목표 및 전개 방향
- 목표: 새로운 기능을 고객에게 선보이기 전에 테스트한다.
- 실험이 합리적인 경우
  - A에 비해 B(신규 기능)가 유의미하게 높으면 해당 피처 배포를 긍정적으로 고려한다.
  - A에 비해 B(신규 기능)가 유의미하게 낮으면 기존 피처 배포 유지를 긍정적으로 고려한다.
  - A에 비해 B(신규 기능)가 유의미하게 높거나 낮지 않으면 아무일 없었듯 다른 테스트를 준비한다.
- 실험이 합리적이지 않은 경우
  - 실험 결과를 폐기하거나, 조건을 바꾸어 재실험한다.

⚠️문제 단계(Answer 전)에서의 의문점, 살펴보고 싶은 부분

<aside> 💡 control 그룹과 treatment 그룹의 대상 인원 수 차이가 2배 가량 나는 점 → 데이터 수에 따라 기술통계 값(평균, 분산, 표준편차 등)이 달라질 수 있기 때문에 두 그룹의 수를 동일하게 맞출 필요가 있다. (오류값을 나중에 빼려고 그린 큰 그림이었구나)

</aside>

<aside> 💡 유저에 따라 시작한(그룹화된) 시점이 다른 점 → (사용 시작 시점이 다르기 때문에 어쩔 수 없지만) 언제 시작하든 동일하게 6월 30일까지의 Send messages 수만 metric으로 집계한다. 시작한 시점이 다르다면 그들에게 동일한 기간(예. 주말 4회 포함 28일)을 적용시켜야, 즉 특정 유저가 6월 15일부터 test 그룹에 적용됐다면, 7월 15일까지 봐야하지 않을까. (비교 대상인 control 그룹도 마찬가지)

</aside>

<aside> 💡 control 그룹의 유저는 기존 Send Messages에 익숙한 사람들이라는 점 → 최대한 동일한 조건의 비교를 위해 test group의 유저들에게도 일종의 '적응 기간'을 줘야 하지 않을까. 익숙한 수준이 비슷할 때 그룹별 메시지 수를 카운트 하는 것이 두 그룹의 통제성(?)을 높일 것이다.

</aside>

<aside> 💡 A/B Test는 참여자 간 설계라는 점 → 이것이 합당한가? 실제로 유저별로 느끼는 사용성의 개선을 보기 위해서는 test 그룹의 old ver. 사용 정도(예. 같은 그룹의 5월 사용 정도 vs 6월 사용 정도)와 new ver. 사용 정도를 비교할 필요가 있지 않을까.

멘토님 코멘트: 한 사람의 전 후 관계를 보고 싶으면 우리 서비스의 굉장한 로열티를 가진 사람을 볼 수 밖에 없음! 한 사람의 이전과 이후를 관찰하는 것은 현업에서 조금 어렵다 랜덤 샘플링을 하는 이유는 A와 B에 들어가는 사용자들을 균일하게 분배하기 위해서

</aside>

통계 개념

"통계는 틀린것은 증명할 수 있어도 맞는 것은 증명하기 어렵다"

📊가설검정

대립가설: 내가 얻고자 하는 상황을 설정 → 맞는 것을 증명
귀무가설: 내가 얻고자 하는 진실과 반대 상황을 설정 → 틀린 것을 증명

→일반적으로 귀무가설을 세우고, 가설이 틀렸다는 것을 증명