made by blackon29.tistory
통계자료의 획득방법
- 총 조사 / 전수조사 (census)
- 표본조사 : 모집단에서 샘플을 추출하여 진행하는 조사
- 모집단(population) = 대상집단
- 원소(element) : 모집단을 구성하는 개체
- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 표본 추출 방법
- 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다
- 단순랜덤 추출법(simple random sampling) : 랜덤하게 모수에서 표본을 반복적으로 추출하는 것으로 난수표 및 체계적 표집법을 사용한다
- 계통추출법(systematic sampling) : 샘플을 나열해 K개씩 n개의 구간으로 나누고, 각 구간에서 하나를 임의로 선택한 후에 K개씩 띄어서 총 n개의 표본을 선택한다. 즉, 임의 위치에서 매 k번째 항목을 추출하는 방법 (=체계적 표집법)
- 군집추출법(cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법
- 층화추출법(stratified random sampling) : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다. 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출하는 방법이다.
- 측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 명목척도 : 어느 집단에 속하는지 분류
- 순서척도 : 서열관계
- 구간척도 = 등간척도 : 속성의 양 측정, 구간 간격이 의미가 있음
- 비율척도 : 간격의 비율이 의미가 있음. 절대적 기준인 0이 존재하고 사칙연산 가능. 제일 많은 정보를 가짐.
- 서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있음
- 구간척도는 절대적 크기는 측정할 수 없기 때문에 더하기/빼기만 가능함
통계분석
특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정
- 기술통계(descriptive statistic) : 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- 통계적추론(추측통계, inference statistics) : 수집된 자료를 이용해 모집단에 대한 의사결정을 함
- 모수추정 : 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석해 모집단을 추론
- 가설검정 : 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론
- 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위함 (ex. 회귀분석, 시계열분석)
이산형 확률변수
0이 아닌 확률값을 갖는 확률변수를 셀 수 있는 경우 (확률질량함수)
- 베르누이 확률분포 : 결과가 2개만 나오는 경우
- 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
- 다항분포 : (이항분포의 확장) 세가지 이상의 결과를 가지는 반복시행에서 발생하는 확률분포
- 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
연속형 확률변수
가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)
- 균일분포(=일양분포) : 모든 확률변수 X가 균일한 확률을 가지는 확률분포 (ex. 다트)