hideBreadcrumbs: true
bottomNavigator: null
title: "타이타닉호 데이터셋 실습 2탄: 생존자/사망자 분류 규칙 발견"
<head>
<link rel="canonical" href="<https://community.heartcount.io/ko/titanic-dataset-2/>" />
</head>

두 집단을 구분하는 특성 찾기 관련 시리즈

  1. 타이타닉호 데이터셋 실습 1탄 : 데이터에서 두 집단을 구분하는 특성 찾기
  2. 타이타닉호 데이터셋 실습 2탄 : 생존자/사망자 분류 규칙 발견하기
  3. 데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 구분하기

Intro: 의사결정나무 알고리즘

https://img1.daumcdn.net/thumb/R1280x0.fjpg/?fname=http://t1.daumcdn.net/brunch/service/user/cqBJ/image/tPYR7wavoXcAZbYn1RwamMV0n9M.jpeg

하루키의 노르웨이의 숲에는 “세상에 당신을 이해하려고 애쓰는 일을 즐기는 사람이 한명쯤 있어도 나쁘지 않지 않나요?”라는 문장이 있습니다.

“So what’s wrong if there happens to be one guy in the world who enjoys trying to understand you?”

의사결정나무(decision tree)도 데이터에 담긴 규칙과 질서를 당신에게 이해시키려고 애쓰는 몇 안되는 알고리즘(white box model) 중 하나입니다.

이번 글에서는 데이터 공부한 사람이라면 한 번쯤은 들어 보았을 “titanic dataset” 으로 의사결정나무가 작동하는 방식과 모형(분석결과)을 해석하는 법을 살펴 보겠습니다.

의사결정나무: 서로 다른 (두) 집단을 분류하는 규칙을 만드는 방법

장르적으로 의사결정나무는 서로 다른 집단을 분류하는 모형을 만드는 Classification 알고리즘입니다.

아래 그림처럼 이차원의 평면에 분포된 늑대와 소를 분류하는 방법은,