정의
모집단
- 잘 정의된 연구 목적과 이와 연계된 명확한 연구 대상을 설정한다. 여기서 연구 대상이 되는 모든 개체의 집합(데이터 전체 집합)을 모집단이라고 한다.
- 목표 모집단, 조사 모집단
모수
- 모집단의 특성을 나타내는 수치들
- 모평균, 모분산
표본
- 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단으로부터 일부를 '추출' 한 자료
- 표본을 추출하는 방법; 조사(survey), 실험(experiment), 관찰(observation)
통계량
- 표본의 특성을 나타내는 수치들
- 표본의 평균, 표본의 분산
- 표본의 특성으로 모집단의 특성을 '추론'한다.(=통계적 추론) 👉 이 때 '오차' 라는 것이 발생
위의 정의들을 바탕으로 통계학이 무엇인지 이해할 수 있다.
💡통계학이란?
• 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해
• 모집단으로부터 일부의 자료(표본)을 수집하고
• 수집된 표본을 정리, 요약, 분석하여 표본의 특성(통계량)을 파악한 후
• 표본의 특성을 이용하여 모집단의 특성(모수)에 대해 추론하는 원리와 방법을 제공하는 학문
(K-MOOC '통계학의 이해1' 강의에서 참고하여 작성했습니다.)
표본 추출시, 고려해야할 중요한 사항 ⭐
- 추출된 표본이 모집단을 대표할 수 있는가?
- 몇 개(혹은 몇 명)의 표본을, 어떻게 뽑아야 하는가?
모집단의 종류
A. 목표 모집단 (target population)
- 관심 대상이 되는 모든 기본단위들의 집합
- 시공간상 명확하게 정의된 연구 대상 집단
- 예시) 2002년 출생한 성인
B. 조사 모집단 (survey population)
- 조사 가능 모집단(accessible population)
- 현실적인 제약을 고려하여 표본추출 대상이 되는 기본단위들의 집합
- 즉 표본 추출틀을 통해 추출될 수 있는 기본단위들의 집합
- 예시) 전화번호부(=표본 추출틀)에 등재된 2002년 출생한 성인
표본 추출법
A. 비확률적 표본 추출법
: 특정 표본이 선정될 확률을 알 수 없기 때문에 추론 결과의 정확도를 알 수 없으므로 통계학에서 사용할 수 없다. 그러나 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용되기는 한다.
<비확률적 표본 추출법의 종류>
• 편의 추출 (Convenience): 자발적 참여, 백화점 앞에서 설문 조사 등
• 유의 추출 (Purposive): 전문가 선택
• 할당 추출(Quota): 그룹 내 조사대상 선택할 때 랜덤화 과정 없이 조사하는 사람 임의대로 선택하는 경우.
B. 확률적 표본 추출법 ⭐
: 특정 표본이 선정될 확률을 알 수 있기 때문에 그 확률을 토대로 추정오차를 과학적으로 설명 가능. 즉 모집단을 잘 대표할 수 있는 표본을 뽑기 위해서는 확률적 표본 추출법을 사용해야 한다. 확률적 표본 추출법은 '표본 추출틀(sampling frame, 표집틀)' 이 필요하다.
<확률적 표본 추출법의 종류>
• 단순 무작위 추출 (Simple random sampling)
• 계통 추출 (Systematic sampling)
• 층화 추출 (Stratified sampling)
• 군집 추출 (Cluster sampling)
확률적 표본 추출법
(1) 단순 무작위 추출 (또는 단순 확률 추출)
• 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법.
• 모든 단위들이 표본에 선택될 확률이 동일하다.
• 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초가 되는 이론이다.
(2) 계통 추출
• 표집틀에서 처음부터 k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k간격으로 단위들을 표본으로 추출하는 방법.
• 표집틀이 없어서 고유번호 부여, 난수 발생 등 단순 무작위 추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 활용.
• 계통 추출과정
- 추출간격 k 결정 (N/n 또는 정확도를 고려하여 결정)
- 1~k 에서 난수 하나를 선택해서 시작점을 선정
- 시작점에 k를 반복적으로 더해서 표본 추출
• 예시) 선거출구조사, 주차장 출입 차량에 대한 조사
(3) 층화 추출
• 모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순 무작위 추출에 의해 표본을 추출.
• 모집단 내 각 층의 구성 내역을 알고 있으며 층 간의 특성 차이가 있는 경우 사용.
• 층화 추출과정
- 층의 구성(성별, 연령, 지역 등)
- 각 층에서 독립적으로 표본 추출
• 예를 들어 서울시 안경점의 월 매출액을 추정하기 위해 표본으로 안경점 100개를 추출할 때, 무작위로 추출할 경우 대형 안경점이 더 많이 포함되어 있으면 그만큼 월 매출액 추정값도 커지게 될 것이다. 즉 추출된 표본 내 대형 안경점이 얼마나 포함되었는지에 따라 추정값 변동이 커지게 된다. 이런 상황을 막기 위해 안경점 규모에 따라 대형/ 중형/ 소형으로 분류한 후 각 층에서 일정 수를 표본으로 추출(= 층화 추출)할 수 있다. 단, 서울시 안경점이라는 모집단에 대형/ 중형/ 소형 안경점이 몇 개씩 존재하는지 구성 내역을 알고 있어야 한다.
- 층의 비율에 맞게 추출한다.
- 층의 비율에 맞지 않으면 가중치를 반영한다.
(4) 군집 추출
• 서로 인접한 조사단위들을 묶어 구성한 군집을 추출하고, 이들 군집 내의 조사단위들을 조사
• 조사단위에 대한 표집틀 확보는 어려울 때, 상대적으로 군집에 대한 표집틀 확보는 쉬운 경우 사용.
• 조사단위들이 산재되어 관측비용이 클 때, 지역적으로 집중되도록 표본 추출하여 사용.
• 예를 들어 서울시 대학생 월평균 수입을 추정하기 위해 표본으로 학생들을 추출할 때, 조사단위인 '대학생'을 단위로 서울시 전체 대학생 명단(=표본추출틀)을 일일이 만드는 것은 작성 비용이 많이 들며 서울 전역에 산재되어 있어 조사 비용도 많이 들어 비효율적이다. 이런 경우 집락 추출을 사용하면 보다 쉽게 표본을 추출할 수 있다.
- 1단계: 이미 대학생들이 모여있는 '대학교'를 추출 -> PSU; primary sampling unit
- 2단계: 학생 추출 (학과 -> 학생)
'통계 노트 > 기초통계' 카테고리의 다른 글
기초통계 / 자료를 파악하는 방법 (표, 그래프) (0) | 2022.08.15 |
---|---|
기초통계 / 분포 형태를 나타내는 측도 (왜도, 첨도) (0) | 2022.08.14 |
기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수) (0) | 2022.08.14 |
기초통계 / 대표값 (평균, 중앙값, 절사평균, 최빈값) (0) | 2022.08.12 |
기초통계 / 자료의 종류, 척도의 종류 (0) | 2022.07.07 |