“흐르는 강물을 거꾸로 거슬러 오르는 연어들의~🎵” 갑자기 웬 연어 타령이냐 싶겠지만 오늘 이야기할 주제와 연어는 아주 깊은 관계가 있답니다. 우선 매드매스를 읽기 전에 연어 장인의 노래를 듣고 오시죠. 현직 연어도 인정한 대단한 가창력의 소유자입니다.
여름이었다.
다 듣고 오셨나요? 연어는 강에서 태어나 바다로 내려가 살다가 알을 낳을 때가 되면 다시 강을 거슬러 올라옵니다. 회귀본능
이 있는 대표적인 생물이죠. 오늘 매드매스에서 다룰 주제는 회귀(Regression)입니다. 국어사전에 나와 있는 회귀의 뜻은 “한 바퀴 돌아 제자리로 돌아오거나 돌아감”인데요! 여기에 분석이 붙어 통계학의 꽃이라고도 불리는 회귀 분석이 탄생하는 거죠. 도대체 회귀 분석 뭐길래 항상 분석 이야기를 하면 따라 나오는 걸까요?
흐르는 강물을 거꾸로 거슬러 오르는 연어(복어 아님)
회귀 분석(Regression Analysis)은 여러 자료들 간의 관계성을 수학적으로 추정하고 설명하는 분석입니다. 변수들 사이의 관계를 파악하는 거죠. 과거 마부뉴스에서도 회귀분석을 다뤘던 사건이 있었어요. 작년 9월이었나요? 저희 탐정사무소에서는 조두순 출소를 앞두고 아동청소년 성범죄 관련 판결문을 몽땅 모아 분석했었죠. 판결문에는 양형 사유를 들어서 피고인의 형량을 늘리거나 줄이거나 하는데, 그 사유들 중에 실제 형량에 수학적으로 유의미한 영향을 준 조건을 확인하기 위해 사용한 게 바로 회귀 분석이었습니다. 아래 기사의 가장 끄트머리를 보면 회귀 분석한 내용을 보실 수 있을 거예요!
[마부작침] ② 또 다른 '조두순들' 어떤 처벌 받았나
회귀라는 단어를 사용한 건 프란시스 골턴이라는 사람입니다. 그는 찰스 다윈의 사촌이기도 했는데, 유전학에서 종종 볼 수 있는 스위트피를 가지고 연구를 하다가 처음으로 회귀라는 단어를 사용했어요. 골턴은 콩의 일종인 스위트피의 씨앗을 무게별로 여러 집단으로 나누고 자가교배를 시켰어요. 그랬더니 각 집단의 자손들 평균 무게는 제각각이었지만 다 비슷한 분포(정규분포)를 보이고 분산(퍼진 정도)이 같았던 거죠.
프랜시스 골턴, 위험한 학자.
게다가 더 특이했던 건 각 집단의 자손 씨앗의 평균 무게가 부모 씨앗의 평균 무게가 아닌 자손 전체의 평균 무게에 더 가까워졌다는 점이었어요. 골턴은 이러한 발견을 놓고 평균으로의 회귀
라는 이름을 붙였어요. 자손을 낳더라도 씨앗의 무게가 퍼지지 않고, 각 세대 전체 집단의 평균을 중심으로 안정적으로 유지된다는 의미로 회귀
라는 단어를 사용했어요. 마치 강물을 거슬러 오르는 연어처럼 결국엔 다들 평균으로 모인다는 의미로 말이죠!
콩에서 그치지 않았던 골턴은 이번엔 사람들의 키를 가지고도 비슷한 실험을 했습니다. 부모의 신장과 자녀의 신장 사이에 어떤 관계가 있는지 실험을 해본겁니다. 골턴은 실험결과를 바탕으로 산점도를 그렸고 그 위에 선형식을 도출해내 오늘날의 회귀분석을 성립하는 데 지대한 공을 세웠어요. 부모의 키와 자녀의 키 사이의 관계를 파악하는데 쓰였던 당시 그래프가 바로 아래에 있습니다.