통계 노트 13

기초통계 / 자료를 파악하는 방법 (표, 그래프)

💡통계 분석방법을 적절하기 선택하기 위해서는? • 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다. • 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다. 변수의 자료 형태 CASE X Y 1️⃣ 범주형 자료 범주형 자료 2️⃣ 범주형 자료 수치형 자료 3️⃣ 수치형 자료 범주형 자료 4️⃣ 수치형 자료 수치형 자료 분석 목적 • 비교 - X(그룹)에 따라 Y에 차이가 있나요? • 관계 - X와 Y가 관련이 있나요? (= X가 Y에 영향을 주나요?) • 분류 - X에 따라 Y를 분류할 수 있나요? - X, Y 를 함께 고려하여 비슷한 것끼리 묶을 수 있나요? 💡분석 목적마다 알맞은 '변수의 자료 ..

기초통계 / 분포 형태를 나타내는 측도 (왜도, 첨도)

💡자료의 분포 형태를 알아야 하는 이유 • 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다. • 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다. • 특히 많은 통계분석 방법에서 모집단의 분포가 중심위치를 기준으로 대칭(symmetric)한다고 가정한다. • 따라서 자료가 모집단의 가정을 만족하는지 확인하기 위해서는, 자료의 분포 형태에 대한 측도를 확인할 필요가 있는 것이다. 왜도(skewness) • 자료의 분포가 대칭적인지 or 한쪽으로 치우쳐있는지를 나타내는 측도 • 큰 음수: 왼쪽으로 꼬리가 긴 분포 • 큰 양수: 오른쪽으로 꼬리가 긴 분포 • 0 에 가까울수록 대칭을 이루는 분포 첨도..

기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

산포도 • 자료들이 얼마나 퍼져 있는지를 나타내는 측도 • 중심위치(대표값)가 얼마나 안정적인지에 대한 중요한 정보를 제공 - 자료가 조밀하게 모여있다. ⇒ 중심위치의 변동이 작아짐 - 자료가 넓게 퍼져있다. ⇒ 중심위치의 변동이 커짐 • 범위, 사분위 범위, 분산, 표준편차, 절대편차, 변동 계수 등 범위 • 자료 중 가장 큰 값과 작은 값의 차이 • 최대값과 최소값에만 영향을 받기때문에 자료 전체에 대해 퍼져있는 정도를 파악할 수는 없다. 그래서 실제 산포도로서 많이 사용되지는 않는다. 사분위 범위 1) 사분위수(quartile) 자료를 오름차순으로 정렬한 뒤, 동일한 비율로 4등분할 때의 세 위치 • 25%지점 → 제 1사분위수 • 50%지점 → 제 2사분위수 = 표본중앙값 • 75%지점 → 제 3..

기초통계 / 대표값 (평균, 중앙값, 절사평균, 최빈값)

표본 크기 대표값 - 자료의 중심을 나타내는 값으로서 자료 전체를 대표할 수 있는 값. - 적절한 대표값을 찾고 확인하는 이유는 자료의 분포를 전체적인 맥락에서 중심 경향성에 대해 살펴보기 위함이다. - 같은 의미로 중심 경향치, 집중화 경향성, 중심위치의 측도라는 용어를 사용하기도 한다. - 가장 많이 사용되는 대표값은 평균이다. 표본평균(sample mean) • 자료 전체의 무게중심을 의미한다. • 표본평균은 표본의 모든 값을 더하여 표본 크기로 나누어 구한다. • 표본평균은 '관측값 x 상대도수'의 합계로도 나타낼 수 있다. ★ 예시 어느 고등학교 학생의 키를 조사하기 위해 5명을 표본으로 뽑았다고 하자. - 표본: 162, 157, 170, 177, 168 - 표본 크기: 5 - 표본 평균은 두..

기초통계 / 자료의 종류, 척도의 종류

💡자료의 속성을 알아야 하는 이유 • 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다. • 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다. • 그러므로 자료를 속성에 따라 분류하여 공부할 필요가 있는 것이다. 자료(data) 변수 조사 대상에 따라 다른 값으로 나타날 수 있는 특성 혹은 속성 일변량 자료(univariate data): 하나의 변수만 있는 자료 다변량 자료(multivariate data): 여러 개의 변수들이 있는 자료. 변수들 간 관련성은 있을 수도 있고, 없을 수도 있다. 관측 개체 관측치, 관측값이라고도 한다. 관측 개체들 간 관련성이 있을 수도 있고, 없을 수도 있. ..

기초통계 / 모집단과 표본

정의 모집단 - 잘 정의된 연구 목적과 이와 연계된 명확한 연구 대상을 설정한다. 여기서 연구 대상이 되는 모든 개체의 집합(데이터 전체 집합)을 모집단이라고 한다. - 목표 모집단, 조사 모집단 모수 - 모집단의 특성을 나타내는 수치들 - 모평균, 모분산 표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단으로부터 일부를 '추출' 한 자료 - 표본을 추출하는 방법; 조사(survey), 실험(experiment), 관찰(observation) 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균, 표본의 분산 - 표본의 특성으로 모집단의 특성을 '추론'한다.(=통계적 추론) 👉 이 때 '오차' 라는 것이 발생 위의 정의들을 바탕으로 통계학이 무엇인지 이해할 수 있다. 💡통계학이란? • 관..

1 2