성적 분포, 키 분포 등등… 세상 어디에서나 발견할 수 있는 정규분포에 대해서 지난 3주간 살펴봤어요. 그런데 정말 세상은 정규분포가 지배하고 있을까요? 연봉 분포를 생각해보죠. 만일 정규분포라면 소액을 받는 사람의 비율과 엄청난 고액을 받는 사람의 비율은 낮고, 중간 정도의 연봉을 받는 사람이 전체의 대다수를 차지해야 하겠지만 사회는 그렇게 녹록지 않습니다.😭 대다수의 직장인이 소액의 연봉을 받고 매우 고액의 연봉을 받는 소수가 존재하죠. 그래서 연봉 분포를 그려보면 소액 부분인 머리가 크고 고액 부분인 꼬리는 낮게 그리고 길게 이어진 모양의 분포를 가질 겁니다. 우리는 이 분포를 멱함수 분포(Power-Law Distribution)라고 하죠.

인생은 실전이란다 정규분포야

인생은 실전이란다 정규분포야

Power-Law Distribution이라고 해서 힘에 의해 정의되는 현실을 반영한 건가 싶겠지만 여기서 Power는 거듭제곱을 의미합니다. 2의 3제곱($2^3$)을 영어로 표현하면 2 to the power of 3인 것처럼 말이죠. 멱(冪)의 뜻도 뒤집어쓰다, 덮는다는 뜻을 가지고 있어서 거듭제곱을 지칭하는 데 쓰였던 단어라고 해요. 멱함수 법칙, 멱법칙(Power-Law)는 이렇게 거듭제곱으로 표현되는 두 수의 관계를 의미해요. 그래프는 위와 같이 롱테일 형태를 띠고요. 만일 두 변수를 빈도와 강도로 둔다면 멱함수는 이 문장으로 정리가 될 겁니다. "강도가 센 사건의 발생 빈도는 작은 사건보다 빈도가 낮다."

생각보다 멱함수 분포는 우리 생활 곳곳에서 발견됩니다. 앞에서 말씀드렸던 연봉의 분포뿐만 아니라 소득 분포도 그러하죠. 자연으로 눈을 돌려보면 지진의 강도, 달의 크레이터, 태양의 플레어(태양 표면에서 엄청난 양의 빛과 에너지가 펑! 하고 표출되는 현상)에서도 멱함수를 확인할 수 있어요. 심지어 전쟁과 테러의 규모까지도 멱함수 분포를 따르고 있다는 게 밝혀지기도 했죠. 2009년에 발표된 논문을 보면 2005년부터 전 세계 9개국의 분쟁지역에서 일어난 54,679건의 테러를 분석해보니 테러 강도와 빈도수가 멱함수 관계에 있다는 걸 알아냈어요.

고속도로망과 항공망의 차이

고속도로망과 항공망의 차이

이런 멱급수와 정규분포는 어떻게 다른 걸까요? 본격적으로 비교해봅시다. 미국 전 지역에 뻗어있는 고속도로망과 항공망을 보시죠. X축을 링크(연결선)의 개수 Y축을 링크를 가지고 있는 점의 수라고 하고 분포도를 그려보면 고속도로망은 가우시안 분포, 즉 정규분포의 모습을 보입니다. 반면 항공망은 멱함수 분포를 띄고 있어요. 항공망에서는 소수의 허브 지역이 엄청나게 많은 링크(연결선)를 가지고 있고 다수의 점이 소수의 연결선을 지니고 있죠.

이렇게 특정 소수에 몰리는, 이른바 허브가 있는 연결 구조는 과거에는 주로 주목하지 않았던 수학 모델이었다고 해요. 이전에 논의되었던 모델들은 균일한 링크를 가진 고속도로망과 같은 네트워크였죠. 그런데 일종의 복잡계의 영역으로 넘어오면서 새로운 관계가 속속 발견된 겁니다. 멱함수는 이전부터 있었지만 그게 네트워크에서 발견되기 시작한 거죠. 지금으로부터 22년 전인 1999년, 당시 월드와이드웹(WWW)을 두고 분석해보니 그 안에서 발견된 건 균일한 네트워크가 아니라 항공망처럼 링크가 일부 지역에 집중된 허브였죠. 여기서부터 네트워크 과학이 탄생했다고 해요.

네트워크, 관계망은 SNS 발달에 힘을 받아 현재 데이터 분석에서 아주 중요한 분야로 자리 잡았어요. 트위터를 비롯한 SNS의 관계망 분석에서 우리는 심심치 않게 허브를 발견했고, 그들에게 소셜테이너라는 이름을 붙이기도 했죠. 우리 삶 속에 네트워크가 점점 늘어나면서 세상을 지배하는 소수의 힘을 더 자주 목격하는 것 같기도 해요. 평균의 다수보다는 특정 소수의 영향력이 커져 버린 지금, 바야흐로 멱함수 분포의 시대라고 부를 만합니다.😂

멱함수는 경제학 같은 다른 분야에서 여러가지 이론으로 활용되기도 하죠. 긴 꼬리에 집중해서 일종의 틈새 시장을 활용하려는 롱테일 법칙, 그리고 상위 20%가 전체 생산의 80%를 차지한다는 파레토 법칙까지. 멱함수에 대해서도 여기저기 할 이야기가 많겠지만 너무 길어질 것 같으니 오늘은 여기까지! 지난 4주간 정규분포 이야기에서 시작해서 멱함수 분포까지 쉼 없이 달려봤어요. 함께 달릴 만 하셨나요? 다음 주에는 또 새로운 통계와 수학 이야기로 찾아뵙겠습니다. 그럼 다음 주까지 안녕~!