<aside> 💡

2. A/B Test 필수 통계학 개념


2-1. A/B Test 목적


항목 내용
A/B Test 목적 샘플링된 집단(A/B)을 비교해 **모집단에 대한 결론(가설 검정)**을 내리는 것
왜 샘플인가 현실적으로 시간·비용·리스크 때문에 전체 유저(모집단) 대신 일부(표본)를 사용

A/B 테스트는 “전체 유저를 전수 비교”가 아니라, 표본으로 모집단 결론을 추론하는 구조임

2-2. 표본추출의 구분: 확률표본 vs 비확률표본


image.png

구분 정의 특징
확률표본추출 각 개체가 뽑힐 확률이 동일(또는 설계에 따라 정의됨) 통계적 추론에 유리
비확률표본추출 각 개체의 선정 확률이 동일하지 않음 편향 위험↑, 일반화 어려움

2-2-1. 확률표본추출 종류


방식 한 줄 정의 실무에서 쓰는 이유/포인트
단순 임의추출 (Simple Random) 모든 개체가 동일 확률로 랜덤 추출 가장 기본, 구현 쉬움
층화 임의추출 (Stratified) 집단을 층(그룹)으로 나누고 각 층에서 랜덤 추출 집단 내 동질 / 집단 간 이질일 때 대표성↑
체계적추출 (Systematic) 임의 시작점 후 k 간격으로 규칙 추출 대량 데이터에서 효율적(단, 주기성 있으면 위험)
집락추출 (Cluster) 집단(클러스터)을 뽑고, 그 집단 전체를 표본으로 운영/비용 효율(단, 분산↑ 가능)

2-2-2. 비확률표본추출 종류


방식 정의 리스크
편의표본(Convenience) 뽑기 쉬운 대상만 추출 편향 매우 큼
판단표본(Purposive) 연구자가 “대표일 것”이라 판단해 선정 주관 개입 위험
할당표본(Quota) 비율(예: 20대 10명, 30대 10명)을 맞춰 선정 “비율만” 맞고 랜덤성 부족 가능

2-5. P-Value의 의미 & t-value와의 관계


개념 정의(슬라이드 핵심 문장 기준)
P-Value 귀무가설이 맞다고 가정할 때, 관찰된(또는 더 극단적인) 결과가 나올 확률

→ 표본 수와 상관없는 확률을 말하며, 어떤 사건이 우연히 발생할 확률

image.png

2-5-1 표본 크기에 영향을 받는 t-value 및 P-value의 필요성

image.png

2-6. 신뢰구간(Confidence Interval) & 표준오차(SEM)


개념 정의/의미
신뢰구간(95% CI) “모집단의 진짜 평균”이 포함될 가능성이 높은 추정 구간
SEM 표본평균의 표준오차, σ / √n 형태로 제시됨

실무에서는 p-value만 보지 말고, **신뢰구간 폭(불확실성)**으로 “추정이 얼마나 안정적인지”를 같이 확인하는 게 핵심

image.png

2-7. t-test: 두 집단 평균 차이 검정 (연속형 변수)


항목 핵심
목적 A/B 두 집단의 평균 차이가 우연인지 검정
t 통계량 (두 평균 차이) / (두 평균 차이에 대한 불확실성)
불확실성(분모) 두 집단 분산과 표본수(n1,n2)에 의해 결정

image.png

t-test는 “평균 차이” 자체보다, 그 차이가 표본 변동성 대비 충분히 큰지를 보는 구조

2-8. Chi-square test(범주형 변수)


언제 쓰나 예시
결과가 범주형(특히 0/1)일 때 클릭 유무, 구매 유무, 전환 유무

→ 계산하려면 Expected(기대값) 표 만들어야

| --- | --- |

image.png

image.png

image.png

평균(연속형)은 t-test, 전환/클릭(범주형)은 카이제곱 검정이 기본 축

2-9. 가설검정 기본: H0/H1, 단측/양측, α (p.34~38)


| --- | --- |

image.png

단측검정은 “원하는 방향만” 보는 만큼, 사전 정의(실험 전 합의)가 없으면 해석 논란이 커질 수 있음

10. Type I / Type II Error (p.39~41)


</aside>

<aside> 💡

</aside>