<aside>

</aside>

📍다중공선성의 오해

다중공선성이란 무엇인가요?

다중 공선성이란 회귀 모델의 독립변수들이 서로 강한 상관 관계를 갖고 있는 상태를 의미합니다.

다중 공선성이 문제가 되는 이유는 선형 회귀 모델은 독립변수들이 서로 독립이어야 한다는 가정 을 위배하기 때문입니다.

그렇기 때문에 다중공선성 문제로 높은 상관관계를 가진 변수쌍 중 하나만 남기는 방식을 선택하는 경우가 많습니다.

다중공선성이 회귀 모델에 미치는 효과는 무엇인가요?

1. 계수의 신뢰도 하락

회귀 모델에 어떤 변수가 포함되는지 여부에 따라 특정 변수의 회귀 계수값이 크게 변동할 가능성이 높다.

예를 들어, 아이스크림 판매량을 예측하는 모델을 만든다고 가정해 봅시다.

독립변수: 일일 최고 기온, 아이스 아메리카노 판매량 을 사용해 보겠습니다.

이때의 문제점은 일일 최고 기온아이스 아메리카노 판매량은 함께 움직이는 경향이 강하고, 둘 사이에 다중공선성이 존재합니다.

그렇다면 모델은 아이스크림 판매량이 늘어난 것이 ‘날이 더워져서’ 인지, **‘사람들이 시원한 걸 많이 찾아서 (아이스 아메리카노 판매량 증가)’**인지 헷갈리기 시작합니다. 두 변수가 거의 동일한 정보를 주기 때문이죠

이때 모델은 다음과 같이 행동할 수도 있습니다.

<aside>

즉, 아이스 아메리카노 판매량이 늘면 아이스크림 판매량도 늘어야하는데, 계수가 음수가 나오는 이상한 결과가 발생합니다. 이는 모델이 두 변수를 구분하지 못해 ‘두 변수의 효과를 더하면 대충 맞게 되도록’ 계수 값을 임의로 조정한 결과입니다.

2. 변수 중요도 왜곡

회귀 계수의 표준 오차가 커져서 통계적 유의성에 영향을 준다.