[250922] 35일차 - i_hate_statistics 03 - 실습

💡 핵심 : CI나 PI를 계산해서 측정

CI❓집단 평균 → 평균 효과 / 평균 매출 / 평균 점수
PI❓ 새로운 관측값 하나가 들어올 범위 = 예언구간 → 다음달 매출 한 번, 다음 환자 한명의 수치 등 개별 사건
def ci_for_mean_t ⭐⭐⭐
def ci_pi_from_sample ⭐
데이터 많든 적든 사실 대부분 t분포를 사용

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes # 당뇨병 예측
import scipy.stats as st
#from pathlib import Path

np.random.seed(42)

data = load_diabetes(as_frame=True)
df = data.frame.copy()
df

🔸 모집단 평균에 대한 t-분포 기반의 신뢰 구간을 계산 ⭐⭐⭐

def ci_for_mean_t(sample, alpha=0.05):
    n = len(sample)
    xbar = np.mean(sample)      # 표본 평균
    s = np.std(sample, ddof=1)  # 표본 표준편차를 계산하기 위해서 자유도를 n-1로 두어야 하기 때문에 ddof = 1
    se = s / np.sqrt(n)         # 표준오차
    tcrit = st.t.ppf(1 - alpha / 2, df=n-1)            # t분포의 값 찾기. 전체 면적 중 특정 비율을 차지하는 지점
    low, high = xbar - tcrit * se, xbar + tcrit * se   # 신뢰구간의 하한과 상한 계산
    return low, high, xbar, s, se, tcrit

# 작은 표본 뽑아보기
n = 20
sample = df["target"].sample(n=n, replace=True, random_state=7).to_numpy()  # replace : 동일한 값 뽑게 할거냐?
low, high, xbar, s, se, tcrit = ci_for_mean_t(sample)

true_mu = df["target"].mean()
ci_summary = pd.DataFrame({
    "n": [n],
    "sample_mean": [xbar],
    "sample_sd": [s],
    "SE": [se],
    "t* (0.975, df=n-1)": [tcrit],
    "CI_low": [low],
    "CI_high": [high],
    "contains_true_mu?": [bool(low <= true_mu <= high)],
    "true_mu (from full data)": [true_mu]    
})

ci_summary

st.t.ppf(q, df)

spicy.stats 라이브러리의 t값 구하는 함수.
- 가설 검정이나 신뢰 구간을 계산할 때 특정 유의 수준에 (ex. 5%) 해당하는 임계값을 찾기 위해 사용
- q : 해당 t값을 구할 누적확률. 0~1 사이.
- df : t분포의 자유도.
- 1 - alpha / 2 ⇒ alpha는 파라미터에서 0.05를 설정해놓았으므로, 0.05 / 2 는 0.025
```
                          1 - 0.025 = 0.975
```
- df=n1 ⇒ 표본 크기 n에서 평균을 이미 썼기 때문에 자유도가 n-1

plt.figure()
plt.axvline(true_mu, linestyle="--", label="True μ (full data)", color="#f69256")
plt.plot([low, high], [0, 0], marker="|", color="#00b3ca")
plt.xlabel("target")
plt.yticks([])
plt.title("95% t-CI for μ (Diabetes target)")
plt.legend()
plt.show()

❗ 신뢰구간은 빈도 주의적으로 해석해야 함

❌ : 이번 구간이 μ를 95% 확률로 포함한다

⭕ : 이 절차로 반복해 만든 구간들 중 약 95%가 μ를 포함한다

🔎 통계적 신뢰구간의 실제 커버리지(coverage)를 실험적으로 검증하는 시뮬레이션 함수

def coverage_experiment(series, n=25, reps=400, alpha=0.05, seed=7):
    # n = 표본 크기(개수)
    # reps = 실험을 몇 번 반복할지?
    # alpha = 유의수준 (0.5면 95% 신뢰구간)
    rng = np.random.default_rng(seed)   # PCG64 라는 알고리즘을 쓰는 난수 생성기, 최근 더 안정적이고 빠르다고 인정받는 최신 알고리즘
    mu_true = series.mean()
    intervals = []
    hits = 0
    for i in range(reps):
        idx = rng.integers(0, len(series), size=n)
        smp = series.to_numpy()[idx]
        low, high, *_ = ci_for_mean_t(smp, alpha=alpha)
        intervals.append((low, high))
        hits += int(low <= mu_true <= high)
    return mu_true, intervals, hits / reps

mu_true, intervals, cov = coverage_experiment(df["target"], n=25, reps=400, alpha=0.05, seed=11)

plt.figure()
k = 40
for i, (low_i, high_i) in enumerate(intervals[:k]):
    plt.plot([low_i, high_i], [i, i], marker="|")
plt.axvline(mu_true, linestyle="--")
plt.title(f"Coverage experiment (first {k} CIs), estimated coverage≈{cov:.3f}")
plt.xlabel("target")
plt.ylabel("sample index")
plt.show()

🔎 신뢰구간의 평균 너비를 계산하여, 표본 크기와 신뢰구간 너비 사이의 관계 보여줌 - 이는 통계학의 중요한 원리인 "표본 크기가 커질수록 신뢰구간의 너비가 좁아진다"는 개념을 검증