통계 노트/기초통계

기초통계 / 표본 추출 시, 가중치 조정이란?

yourhm 2024. 2. 14. 10:53

표본 추출 시, 고려해야 할 중요한 사항 

- 추출된 표본이 모집단을 대표할 수 있는가?

- 몇 개(혹은 몇 명)의 표본을, 어떻게 뽑아야 하는가?

 


 

 

추출된 표본이 모집단을 대표하기 위해서는 모집단의 특성이 반영되어 있어야 한다. 특히, 모집단의 구성 정보는 표본을 추출하는데 있어서 매우 중요한 사전 정보가 된다. 왜냐하면 모집단이 다른 특성을 갖는 서브 모집단들로 이루어진 경우, 서브 모집단의 구성 비율이 표본에서 모집단과 다르게 나타나면 결국 모집단에 대한 통계 분석 결과가 왜곡되어 나올 수 있기 때문이다. 그러므로 표본 추출시 모집단의 구성 정보를 반영하는 것은 표본 조사 결과의 정확도를 높일 수 있는 핵심요소라고 할 수 있다.

 

하지만, 아무리 표본 추출 설계시 모집단의 구성 정보를 충실히 반영해도 실제 표본 획득 과정에서 모집단과 구성이 다른 표본이 얻어질 때가 있다. 이 때, 이를 해결할 수 있는 방법이 '가중치'를 조정해주는 것. 그렇다면 가중치란 무엇이며, 가중치 조정은 어떻게 하는 것일까?

 

예시를 통해 이해해보자. 어떤 선거를 위한 투표가 진행 중이라고 한다. 특정 개표 시점에서의 득표율이 끝까지 유지되었을 때 결국 누가 당선될 것인지 추측해보자.

 

(1) 정보

- 후보자: 2명 (김기역, 이니은)

- 투표 지역: 2곳 (A 지역, B 지역)

 

 

(2) 지역별 개표율

- A 지역 : 총 70,000명   개표율 10% (7000명) 

- B 지역 : 총 30,000명 →  개표율 50% (15000명)

 

 

(3) 지역별 후보자 득표율

- A 지역 : 7,000명 중 (김기역 60%, 이니은 40%)

- B 지역 : 15,000명 중  (김기역 30%, 이니은 70%)

 

 

(4) 후보자별 득표 수 합계

  김기역 이니은 total
A 지역 70,000 x 0.1 x 0.6 = 4,200 70,000 x 0.1 x 0.4 = 2,800 7,000
B 지역 30,000 x 0.5 x 0.3 = 4,500 30,000 x 0.5 x 0.7 = 10,500 15,000
total 8,700 (39.5%) 13,300 (60.5%) 22,000 (100%)

 

현재 개표시점 기준으로 지역 종합 득표율을 계산하면, 이니은 후보자가 높다.

- 김기역: 8700 / (8700+13300) = 39.5%

- 이니은: 13300 / (8700+13300) = 60.5%

 

 

(5) 현재 개표시점의 "지역별 후보자 득표율"이 끝까지 유지된다고 했을 때 당선자를 추측한다면?

현재 개표시점의 지역별 개표율을 고려하지 않는 경우와 지역별 개표율을 고려한 가중치를 적용하는 경우, 두 가지 경우로 나누어 생각해볼 수 있다.

 

👉 (지역별 개표율 고려 X) 가중치를 적용하지 않을 경우

김기역: 100,000 * 39.5% = 39,500 명

이니은: 100,000 * 60.5% = 60,500 명 ⇒ 당선 유력

 

👉 (지역별 개표율 고려 O) 가중치를 적용할 경우

  김기역 이니은 total
A 지역 70,000 x (0.1 * 10) x 0.6
= 42,000
70,000 x (0.1 * 10) x 0.4
= 28,000
70,000
B 지역 30,000 x (0.5 * 2) x 0.3
= 9,000
30,000 x (0.5 * 2)  x 0.7
= 21,000
30,000
total 51,000 (51%) ⇒ 당선 유력 49,000 (49%) 100,000 (100%)

 

현재 개표시점의 "지역별 후보자 득표율"이 끝까지 유지된다고 했을 때, A 지역은 개표율이 10% 였으니까 1표가 10개의 표를 대표하는 것으로 볼 수 있기 때문에 가중치를 10으로 적용하고, B 지역은 개표율이 50% 였으니까 1표가 2개의 표를 대표하는 것이라고 볼 수 있기 때문에 가중치를 2로 적용한다. 가중치를 적용하여 추측한 결과, 김기역 후보자의 당선이 유력하다. 가중치를 적용하지 않고 추측했을 경우 이니은 후보자의 당선이 유력했으나 가중치를 적용하여 추측한 경우 김기역 후보자의 당선이 유력한 것으로 나타났다.

 

이처럼 가중치 적용 여부에 따라 결과는 완전히 다르게 나타날 수 있다. 즉, 가중치는 내가 가지고 있는 표본 하나가 과연 몇 개를 대표하는지로 이해하면 쉽다. 모집단과 구성이 다른 표본이 얻어질 때 가중치를 조정하여 해결할 수 있다.

 

 

기본 가중치

표본 추출법 기본 가중치  
단순 확률 추출법 각 표본에 대한 설계 가중치는 동일 w = N/n
계통 추출법 각 표본에 대한 설계 가중치는 동일 w = N/n = k
층화 확률 추출법 층의 크기, 해당 층에서의 표본 크기에 따라 달라짐  
집락 추출법 집락의 크기, 해당 집락에서의 표본 크기에 따라 달라짐  

 

 

층화 확률 추출법에서 가중치 이해하기

⚫ 추출 확률에 따른 가중치

- 등확률 추출인 경우: 표본 하나가 N/n 을 대표

- 등확률 추출이 아닌 경우: 추출확률의 상이함에 따른 조정 필요.

 

무응답에 따른 가중치

대체 표본이 없거나, 일부 항목에 답을 하지 않은 경우

 

사후층화를 위한 가중치

가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정 필요.

 

 

예시를 통해 이해해보자. 대학 졸업자의 취업 현황 조사를 한다고 할 때, 가중치를 계산해보자.

 

(1) 모집단

- 수도권 대학 졸업자: 40만명

- 지방 대학 졸업자: 20만명

 

(2) 표본크기

- 수도권: 500명

- 지방: 500명

 

(3) 표본 추출률

- 수도권: 500 / 400,000 = 1/800

- 지방: 500 / 200,000 = 1/400

 

(4) 응답률

- 수도권: 60%

- 지방: 80%

 

(5) 추출 확률에 따른 가중치(w1)는?

- 수도권: 1/추출률 = 800 -> 수도권 표본 1명이 800명을 대표

- 지방: 1/추출률 = 400 -> 지방 표본 1명이 400명을 대표

 

(6) 무응답에 따른 가중치(w2)는?

- 수도권: 1/응답률 = 100/60

- 지방: 1/응답률 = 100/80

 

(7) 사후층화를 위한 가중치(w3)는?

성별에 따라 취업 현황에 차이가 있음(가정)

수도권과 지방의 대학 졸업자들 성별 구성은 비슷함(가정)

모집단 남: 45% / 여: 55%

표본 남: 60% / 여: 40%

 

- 남자의 가중치: 45/60

- 여자의 가중치: 55/40

 

(8) 최종 가중치 계산하기

w = w1 x w2 x w3

 

- 응답한 수도권 남자: w = 800 x (10/6) x (45/60) = 1000

- 응답한 수도권 여자: w = 800 x (10/6) x (55/40) = 1833.3

- 응답한 지방 남자: w = 400 x (10/8) x (45/60) = 375

- 응답한 지방 여자: w = 400 x (10/8) x (55/40) = 687.5