두 변수의 공분산(covariance)을 각각의 표준 편차의 곱으로 나눈 값
$$ \rho=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, \quad-1 \leq \rho \leq 1 $$
$$ r_{X Y}=\frac{\sum_i^n\left(X_i-\bar{X}\right)\left(Y_i-\bar{Y}\right)}{\sqrt{\sum_i^n\left(X_i-\bar{X}\right)^2} \sqrt{\sum_i^n\left(Y_i-\bar{Y}\right)^2}} $$
두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치
확률 변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화한 것.
전체 편차 내에서 예측치와 평균 간의 차이가 차지하는 비율
편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이
측정하려는 두 변수의 상관관계가 서로 선형일때, 즉 1차함수로 표현가능할때 유용
좌표평면에 변인 x,y를 fit한 후 각각의 관찰값들을 산점도 형태로 표시하여 두 변인의 관계를 시각적으로 나타냄.
상관계수가 높으면 관찰값들이 더욱 밀집해서 분포한다.
피어슨 상관계수의 값은 반드시 -1에서 1 사이에 위치(코시 슈바르츠 부등식에 의해)
양(+)의 상관: 관찰값들 우상향
음(-)의 상관: 관찰값들 우하향
상관계수가 0이라는 것은x,y의 선형적 관계가 없다는 것이지, x,y가 상관관계가 없다는 것은 아니다.
상관계수 r은 그대로 사용되기보다는 한번 제곱한 상태로 사용되는 경우가 많다.
단순선형회귀분석에서는 상관계수의 제곱이 결정계수가 된다.
측정한 상관관계가 실제로 얼마나 큰지 보여준다.
단순선형회귀분석을 하는데 있어서 독립변수와 종속변수를 구별해야 하지만 상관계수에는 이러한 구별이 존재하지 않는다.
r을 약간 변형하면 t점수(t score)로 만들 수 있음.
$\displaystyle \frac{r}{\sqrt{\frac{1-r^2}{n-2}}}$
즉, r을 이용해서 가설검증이 가능하다.
상관관계의 규명에서의 오류
1종 오류(type 1 error)
상관관계가 없는데도 있다고 생각하는 오류
매우 쉽게 발생하는 오류이다.
ex) 지난 30년간 가족의 크기와 코카콜라의 가격을 비교
코카콜라의 가격은 상승했고, 가족의 크기는 줄어들었다.
따라서 둘은 음의 상관관계를 가진다고 결론이 나오지만, 실제로는 코카콜라의 가격과 가족의 크기는 당연히 아무 상관이 없다.
이런 오류를 예방하기 위해 두 변수간의 인과관계를 먼저 파악해야 한다.
2종 오류(type 2 error)
상관관계가 있는데도 없다고 생각하는 오류
3종 오류(type 3 error)
상관관계가 없다고 생각했고, 실제로 없었지만 그 이유가 틀린 경우