“여의도 116배 면적 군사시설 보호구역 풀린다”, “산불로 여의도 면적 잿더미” 여느 기사로 접할 수 있는 제목들입니다. 그런데 도대체 여의도 면적이 얼마이기에 항상 이런 표현이 관용적으로 쓰이는 걸까요? 기자들이 면적을 비교할 때는 여의도 면적을 쓰기로 약속이라도 한 걸까요? 사실 이런 표현은 불편한 지점이 있어요. 서울에 살지 않는 사람은 여의도를 본 적도 없을 테고 당연히 그 면적에 관심은 1도 없을 테니까요.

여의도 위에 조그만 밤섬이 보인다. 밤섬을 무대로한 <김씨 표류기>는 정말 재밌다

여의도 위에 조그만 밤섬이 보인다. 밤섬을 무대로한 <김씨 표류기>는 정말 재밌다

그래서 이미 한참 전에 문화체육관광부에서는 이런 표현이 서울 중심적인 잘못된 표현이라고 지적한 바 있어요. 여의도의 상징적 의미를 모르는 건 아니지만 직관적이지 않으니 바꾸라고 했죠. 면적을 비교하기 위해 대표 격으로 “여의도 면적의 N배”라는 (서울 중심적인) 수치를 사용한 것처럼 어떤 자료의 특징을 표현하는데 대표적으로 사용되는 값을 우리는 대푯값이라고 부릅니다. 오늘 꼭꼬의 매드매쓰는 데이터를 표현하는 대푯값에 대해 알아봅니다.

<aside> 💡 그래서 여의도 면적이 얼만데?

2012년, 당시 국토해양부(現 국토교통부)는 여의도 면적을 기준으로 다른 면적을 비교할 경우에는 여의도의 제방 안쪽 넓이인 2.9㎢를 기준으로 비교하자고 정했어요. 이후로 나오는 기사에서 사용된 여의도 면적은 2.9㎢입니다. 평으로 비교해보면 877,250평 정도 됩니다. 제방 바깥 한강 공원까지 합치면 4.5㎢ 정도고, 행정구역상 여의도동은 8.4㎢랍니다.

</aside>

가장 많이 사용하는 대푯값은 누가 뭐래도 평균입니다. 그중에서도 가장 많이 사용하는 건 산술평균이죠. 산술평균은 N개의 데이터가 있다면 그 수치를 모두 더해서 N개로 나누어 놓은 숫자입니다. 계산도 쉽고 가장 대중적이기에 가장 익숙한 대푯값이죠. A반 학생들의 키와 B반 학생들의 키를 비교하고 싶다면? 우리는 반별로 키의 평균을 계산해 비교할 겁니다. 하지만 평균은 극단값(아주 크거나 아주 작은 수치를 가진 녀석들)의 영향을 많이 받는다는 게 단점입니다. 이 단점을 해결하기 위해 사용하는 게 중앙값이죠. 혹은 극단치들을 쳐 내고 평균을 산출하는 절사 평균을 사용하기도 합니다.

중앙값은 N개의 데이터를 크기순으로 늘어놓았을 때 가장 중앙에 위치한 숫자입니다. 각 수치가 격차가 워낙 클 경우 평균이 대푯값으로의 역할을 하지 못할 때 사용하죠. 보통 소득을 비교할 때 중앙값을 봅니다. 가난한 사람들의 소득과 부자들의 소득이 워낙 격차가 크기 때문에 일반적인 평균을 쓰면 부자들의 소득이 많이 반영돼 크게 나오니까요. 그래서 국민 소득을 비교할 때에는 중위소득으로 봅니다. 통계청에서도 중위소득으로 발표를 하고 있죠. 중앙만 보지 않고 4등분 해 각 위치에서 관측되는 사분위수를 쓰기도 하고, 더 잘게 쪼개서 백분위수를 사용하기도 합니다. 그 외에도 가장 빈도수가 높은 녀석을 대푯값으로 보는 최빈값 등이 자주 사용되는 대푯값이라고 할 수 있을 거예요.

$$ A \; Group \;\; \begin{Bmatrix} 0\,, 1\,,1 \,, 3\, ,5\, ,5\, ,7\, ,7\, ,7\, ,8\, ,12\, ,300 \end{Bmatrix} \\ B \; Group \;\; \begin{Bmatrix} 0\,, 0\,,1 \,, 2\, ,5\, ,6\, ,7\, ,7\, ,7\, ,10\, ,24\, ,30 \end{Bmatrix} $$

$$ Mean_A = {0+1+1+3+5+5+7+7+7+8+12+300 \over 12} = 29.67 \\ Mean_B = {0+0+1+2+5+6+7+7+7+10+24+30 \over 12} = 8.25 $$

자, 예를 들어서 살펴봅시다. A 그룹과 B 그룹엔 12개의 데이터가 있습니다. 우선 가장 대표적인 산술평균을 계산해봅니다. A 그룹의 평균은 29.7, B 그룹의 평균은 8.3, 산술평균으로 비교해보니 A 그룹이 더 높게 나왔군요. 그런데 A 그룹에는 300이라는 이상치가 있습니다. 이 녀석 때문에 A 그룹을 대표하는 수치로 평균을 쓰기에는 좀 무리가 있어 보여요. 그래서 이번에는 절사평균과 중윗값을 봅시다.

$$ TM_A = {1+1+3+5+5+7+7+7+8+12 \over 10} = 5.6 \\ TM_B = {0+1+2+5+6+7+7+7+10+24 \over 10} = 6.9

$$

가장 작은놈과 큰 놈, 한 놈씩 제거하고 평균을 내보니 좀 더 비교할만해 보이네요. 절사평균의 경우 B 그룹이 더 크게 나왔습니다. 중윗값은 12개의 데이터를 크기순으로 일렬로 나열했을 때 가장 중앙에 오는 값이니 A 그룹의 경우 5와 7의 중간인 6, B 그룹의 경우 6과 7의 중간인 6.5가 되겠네요. 이 경우도 B 그룹이 더 크게 나옵니다. 어떤 대푯값을 쓰느냐에 따라 무엇이 더 우위에 있는지 해석이 달라지니 항상 유의해야 합니다~!