통계 노트/기초통계 13

기초통계 / 표본 추출 시, 가중치 조정이란?

⭐ 표본 추출 시, 고려해야 할 중요한 사항 - 추출된 표본이 모집단을 대표할 수 있는가? - 몇 개(혹은 몇 명)의 표본을, 어떻게 뽑아야 하는가? 추출된 표본이 모집단을 대표하기 위해서는 모집단의 특성이 반영되어 있어야 한다. 특히, 모집단의 구성 정보는 표본을 추출하는데 있어서 매우 중요한 사전 정보가 된다. 왜냐하면 모집단이 다른 특성을 갖는 서브 모집단들로 이루어진 경우, 서브 모집단의 구성 비율이 표본에서 모집단과 다르게 나타나면 결국 모집단에 대한 통계 분석 결과가 왜곡되어 나올 수 있기 때문이다. 그러므로 표본 추출시 모집단의 구성 정보를 반영하는 것은 표본 조사 결과의 정확도를 높일 수 있는 핵심요소라고 할 수 있다. 하지만, 아무리 표본 추출 설계시 모집단의 구성 정보를 충실히 반영해도..

기초통계 / 통계적 추론

[참고] 추론 방식의 구분1. 논리적 추론    - 연역적 추론: 일반적/보편적 전제로부터 개별적/특수한 결론을 얻는 추론 방식    - 귀납적 추론: 개개의 특수한 사실로부터 일반적인 결론을 이끌어내는 추론 방식2. 통계적 추론   통계적 추론 (Statistical Inference)표본 정보를 이용하여 미지의 모수 값을 도출해내는 과정   통계적 추론의 분류1.  '모집단에 대한 분포 가정 여부' 에 따라(1) 모수적 추론 (parametric inference)  - 모집단에 특정 분포를 가정하고 모수에 대해서 추론하는 것. - 모집단에 대한 가정이 얼마나 적절한지에 따라 최종 결론의 타당성에 영향을 주기 때문에 ⇒ 가정의 적절성을 평가하는 부분이 포함됨 (예를 들어 정규성 검정)- 자료가 정규분..

기초통계 / 이산형 확률분포 (1) 베르누이 분포, 이항 분포

이산형 확률분포 - 베르누이 분포 - 이항 분포 - 기하 분포 - 포아송 분포 ✔️ 이산 확률분포는 확률질량함수를 이용하여 표현한다. ✔️ 확률질량함수란? 이산 확률변수가 특정 값을 가질 확률을 나타내는 함수다. 베르누이 분포 1) 베르누이 시행 ① 각 시행의 결과가 두 가지만 있는 실험. (성공/실패, 앞/뒤 ...) ② 각 시행이 독립적으로 수행. ③ 모든 시행에서 결과의 확률은 항상 동일. • P(성공) = P(S) = p • P(실패) = P(F) = 1 - p = q ⇒ 이항분포, 음이항분포, 다항분포의 기본이 되는 개념. 2) 베르누이 확률 분포 모수(성공할 확률)이 p인 베르누이 시행으로 인해 확률변수가 1(성공)과 0(실패)의 값을 갖는 확률분포. 확률변수 X가 베르누이 확률변수라면 아래와..

기초통계 / 확률변수의 분산과 표준편차

표본 분산을 떠올려보자. 표본 분산은 간단하게 위와 같이 쓸 수 있지만, 아래와 같이 표본에서 관측값이 차지하는 비율(=상대도수)을 사용하여 쓸 수도 있다. 왜냐하면 표본 평균은 '관측값 x 상대도수'의 합계로 나타낼 수 있다고 했고, 표본 분산은 편차제곱을 평균낸 것이므로 이를 '편차제곱 x 상대도수'의 합계로 나타낼 수 있는 것! 예를 들어 n이 10이라고 하면 아래와 같이 나타낼 수 있다. ✓ n이 계속 커지면 '표본'은 결국 '모집단'이 되고, 특정 값에 대한 '비율'은 특정 값이 발생할 '확률'이 된다. 이에 따라 표본 평균은 모평균이 되며 표본 분산은 모분산이 된다. • 표본 → 모집단 • 표본에서 특정 값에 대한 비율 → 사건이 일어날 '확률' • 표본 평균 → 모평균 • 표본 분산 → 모분..

기초통계 / 확률변수의 기대값

표본 평균을 떠올려보자. 표본 평균은 간단하게 위와 같이 쓸 수 있지만, 아래와 같이 표본에서 관측값이 차지하는 비율(=상대도수)을 사용하여 쓸 수도 있다. 왜냐하면 표본 평균은 '관측값 x 상대도수'의 합계로 나타낼 수 있다는 것을 우리는 알고 있다! 예를 들어 n이 10이라고 하면 아래와 같이 나타낼 수 있다. ✓ 지난 포스팅에서 다뤘던 상대도수 극한의 개념에 따라 n이 계속 커지면 '표본'은 결국 '모집단'이 되고, 특정 값에 대한 '비율'은 특정 값이 발생할 '확률'이 된다. 이에 따라 n이 계속 커지면 표본 평균도 모평균이 됨을 알 수 있다. • 표본 → 모집단 • 표본에서 특정 값에 대한 비율 → 사건이 일어날 '확률' • 표본 평균 → 모평균 모평균 = 확률변수의 기대값 • 모평균은 확률변수..

기초통계 / 확률 변수, 확률 분포

확률 현상 ① 모든 가능한 결과들에 대해 알고 있지만, ② 어떤 결과가 나올지 모르는 현상 → 불확실성 주사위를 던질때 나오는 숫자의 가능한 결과는 {1,2,3,4,5,6} 중에서 하나임을 알고 있지만, 그중에서 실제로 어떤 결과가 나올지는 정확히 알 수 없다. 이것을 확률 현상이라고 말한다. 1.확률 실험(random experiment) - 발생 가능한 모든 결과의 집합을 알고 있지만, 실제로 어떤 결과가 나올지 모르는 것에 대해 실험하는 것. ❓확률 실험 vs. 시행(trial) - 확률 실험과 시행은 둘다 확률 현상에 기인하여 행해지는 것이기때문에 같은 의미로 사용될 수도 있다. 하지만 시행과 실험의 정의를 정확히 구별해야 하는 경우, 확률 실험은 여러 시행의 조합으로 형성된 더 큰 실체로 생각할..

기초통계 / 표본 공분산, 표본 상관계수

산점도(scatter plot) 각각의 관측 개체에 대해 두 수치형 변수의 값을 순서쌍으로 표현하고 2차원 평면상에 점으로 나타낸 그림. ⇒ 두 수치형 변수간에 관계가 있는지를 시각적으로 확인할 수 있다. 표본 공분산 표본 공분산 선형관계 산점도 유형 c > 0 두 수치형 변수간에 양의 선형관계가 존재한다. (A) c < 0 두 수치형 변수간에 음의 선형관계가 존재한다. (B) |c| ≈ 0 두 수치형 변수간에 선형관계가 존재하지 않다. 이것은 (D)와 같이 선형관계가 존재하지 않는다는 것이지, 다른 관계도 존재하지 않는다는 것을 의미하지 않는다. (C), (D) 표본 공분산의 문제점 • 표본 공분산을 통해서는 두 수치형 변수의 선형관계 존재 유무만 알 수 있을 뿐, 선형관계의 정도를 파악할 수는 없다...

1 2