통계 노트/기초통계

기초통계 / 모집단과 표본

yourhm 2022. 7. 7. 19:13

정의

모집단

- 잘 정의된 연구 목적과 이와 연계된 명확한 연구 대상을 설정한다. 여기서 연구 대상이 되는 모든 개체의 집합(데이터 전체 집합)을 모집단이라고 한다.

- 목표 모집단, 조사 모집단

 

모수

- 모집단의 특성을 나타내는 수치들

- 모평균, 모분산

 

표본

- 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단으로부터 일부를 '추출' 한 자료

- 표본을 추출하는 방법; 조사(survey), 실험(experiment), 관찰(observation)

 

통계량

- 표본의 특성을 나타내는 수치들

- 표본의 평균, 표본의 분산

- 표본의 특성으로 모집단의 특성을 '추론'한다.(=통계적 추론) 👉 이 때 '오차' 라는 것이 발생

 

 

 

위의 정의들을 바탕으로 통계학이 무엇인지 이해할 수 있다.

💡통계학이란?

     • 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해
     • 모집단으로부터 일부의 자료(표본)을 수집하고
     • 수집된 표본을 정리, 요약, 분석하여 표본의 특성(통계량)을 파악한 후
     • 표본의 특성을 이용하여 모집단의 특성(모수)에 대해 추론하는 원리와 방법을 제공하는 학문
     
     (K-MOOC '통계학의 이해1' 강의에서 참고하여 작성했습니다.)

 

 

 

표본 추출시, 고려해야할 중요한 사항 ⭐

- 추출된 표본이 모집단을 대표할 수 있는가?

- 몇 개(혹은 몇 명)의 표본을, 어떻게 뽑아야 하는가?

 

 

 

모집단의 종류

A. 목표 모집단 (target population)

- 관심 대상이 되는 모든 기본단위들의 집합

- 시공간상 명확하게 정의된 연구 대상 집단

- 예시) 2002년 출생한 성인

 

B. 조사 모집단 (survey population)

- 조사 가능 모집단(accessible population)

- 현실적인 제약을 고려하여 표본추출 대상이 되는 기본단위들의 집합

- 즉 표본 추출틀을 통해 추출될 수 있는 기본단위들의 집합

- 예시) 전화번호부(=표본 추출틀)에 등재된 2002년 출생한 성인

 

 

 

표본 추출법

A. 비확률적 표본 추출법

: 특정 표본이 선정될 확률을 알 수 없기 때문에 추론 결과의 정확도를 알 수 없으므로 통계학에서 사용할 수 없다. 그러나 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되기는 한다.

 

<비확률적 표본 추출법의 종류>

• 편의 추출 (Convenience): 자발적 참여, 백화점 앞에서 설문 조사 등

• 유의 추출 (Purposive): 전문가 선택

• 할당 추출(Quota): 그룹 내 조사대상 선택할 때 랜덤화 과정 없이 조사하는 사람 임의대로 선택하는 경우.

 

B. 확률적 표본 추출법 

: 특정 표본이 선정될 확률을 알 수 있기 때문에 그 확률을 토대로 추정오차를 과학적으로 설명 가능. 즉 모집단을 잘 대표할 수 있는 표본을 뽑기 위해서는 확률적 표본 추출법을 사용해야 한다. 확률적 표본 추출법은 '표본 추출틀(sampling frame, 표집틀)' 이 필요하다.

 

<확률적 표본 추출법의 종류>

• 단순 무작위 추출 (Simple random sampling)

• 계통 추출 (Systematic sampling)

• 층화 추출 (Stratified sampling)

• 군집 추출 (Cluster sampling)

 

 

 

확률적 표본 추출법

(1) 단순 무작위 추출 (또는 단순 확률 추출)

• 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법.

• 모든 단위들이 표본에 선택될 확률이 동일하다.

• 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초가 되는 이론이다.

 

(2) 계통 추출

• 표집틀에서 처음부터 k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k간격으로 단위들을 표본으로 추출하는 방법.

• 표집틀이 없어서 고유번호 부여, 난수 발생 등 단순 무작위 추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용.

• 계통 추출과정

     - 추출간격 k 결정 (N/n 또는 정확도를 고려하여 결정)

     - 1~k 에서 난수 하나를 선택해서 시작점을 선정

     - 시작점에 k를 반복적으로 더해서 표본 추출

• 예시) 선거출구조사, 주차장 출입 차량에 대한 조사

 

(3) 층화 추출

• 모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순 무작위 추출에 의해 표본을 추출.

• 모집단 내 각 층의 구성 내역을 알고 있으며 층 간의 특성 차이가 있는 경우 사용.

층화 추출과정

     - 층의 구성(성별, 연령, 지역 등)

     - 각 층에서 독립적으로 표본 추출

예를 들어 서울시 안경점의 월 매출액을 추정하기 위해 표본으로 안경점 100개를 추출할 때, 무작위로 추출할 경우 대형 안경점이 더 많이 포함되어 있으면 그만큼 월 매출액 추정값도 커지게 될 것이다. 즉 추출된 표본 내 대형 안경점이 얼마나 포함되었는지에 따라 추정값 변동이 커지게 된다. 이런 상황을 막기 위해 안경점 규모에 따라 대형/ 중형/ 소형으로 분류한 후 각 층에서 일정 수를 표본으로 추출(= 층화 추출)할 수 있다. 단, 서울시 안경점이라는 모집단에 대형/ 중형/ 소형 안경점이 몇 개씩 존재하는지 구성 내역을 알고 있어야 한다. 

     - 층의 비율에 맞게 추출한다.

     - 층의 비율에 맞지 않으면 가중치를 반영한다.

 

(4) 군집 추출

서로 인접한 조사단위들을 묶어 구성한 군집을 추출하고, 이들 군집 내의 조사단위들을 조사

• 조사단위에 대한 표집틀 확보는 어려울 때, 상대적으로 군집에 대한 표집틀 확보는 쉬운 경우 사용.

조사단위들이 산재되어 관측비용이 클 때,  지역적으로 집중되도록 표본 추출하여 사용.

예를 들어 서울시 대학생 월평균 수입을 추정하기 위해 표본으로 학생들을 추출할 때, 조사단위인 '대학생'을 단위로 서울시 전체 대학생 명단(=표본추출틀)을 일일이 만드는 것은 작성 비용이 많이 들며 서울 전역에 산재되어 있어 조사 비용도 많이 들어 비효율적이다. 이런 경우 집락 추출을 사용하면 보다 쉽게 표본을 추출할 수 있다.

     - 1단계: 이미 대학생들이 모여있는 '대학교'를 추출 -> PSU; primary sampling unit

     - 2단계: 학생 추출 (학과 -> 학생)