hideBreadcrumbs: true
bottomNavigator: null

두 집단을 구분하는 특성 찾기 관련 시리즈

  1. 데이터에서 두 집단을 구분하는 특성 찾기
  2. 타이타닉호의 생존자/사망자 분류 규칙 발견
  3. 데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 분리하기

Intro

현업 관점에서 데이터 분석이란 목표변수(Y) 값의 차이를 설명하는 일이고

차이는 본질적인 차이와 우발적인 차이의 합으로 구성됩니다.

전국의 개별 대리점들이 나타내는 순이익률의 차이는 대리점에 내재된 본질적 성과(기량) 차이의 반영일 수도 있고 단순히 운이 좋아 장사가 잘(안)된 것의 반영일 수도 있는 것처럼 말이죠.

본질적인, 그래서 일반화할 수 있는 차이를 Signal이라 하고 우연(Chance)에 의해 유발된 차이를 Noise라 했을 때 Signal과 Noise를 어떻게 구분할 수 있을까요?

(우발적이거나 허구적 서열에 근거한 차이를 본질적 차이라고 주장한 것이 차별의 역사이기도 합니다.)

참고로 안정된 시스템일수록, 시스템을 구성하는 개별 구성요소들의 기량의 차이가 적어진게 된다. 이것은 구성요소들(예, 개별 대리점)이 best practice를 서로 서로 학습한 결과 돈버는 기량이 서로 비슷해지게 되어, 결국 이익의 차이(변량) 역시 작아지기 때문이다. 이렇게 기량의 차이가 적은 구성요소들로 구성된 시스템에서는 개별 구성요소들의 성과 차이에 미치는 운의 영향력이 상대적으로 커지게 되는데 이런 현상을 기량의 역설(Paradox of Skill)이라고 한다.

양극단을 비교하기

이번달에 대리점 A 주변에 큰 국제 행사가 열려 대리점 A의 이익이 예외적으로 높았다고 해봅시다. 대리점 A의 이익은 다음달에는 아마도 다시 평균(평범함)으로 회귀하게 될 겁니다. (Regression to Mean/Mediocirity)

하지만, 지난 2년 동안 꾸준히 높은 이익률을 낸 대리점은 운(우발적 사건;Noise) 때문이 아니라 매장에 내재된 본질적인 기량이 이익의 차이로 나타난 것이라 생각할 수 있습니다. (반대로 꾸준히 장사 못하는 대리점의 경우도 마찬가지)