통계 노트/기초통계

기초통계 / 자료의 종류, 척도의 종류

yourhm 2022. 7. 7. 19:14
💡자료의 속성을 알아야 하는 이유

• 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다.
• 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다.
• 그러므로 자료를 속성에 따라 분류하여 공부할 필요가 있는 것이다.

 

 

자료(data)

변수

조사 대상에 따라 다른 값으로 나타날 수 있는 특성 혹은 속성

일변량 자료(univariate data): 하나의 변수만 있는 자료

다변량 자료(multivariate data): 여러 개의 변수들이 있는 자료. 변수들 간 관련성은 있을 수도 있고, 없을 수도 있다.

 

관측 개체

관측치, 관측값이라고도 한다. 관측 개체들 간 관련성이 있을 수도 있고, 없을 수도 있. 단, 기초 통계에서는 관측 개체들 간 관련성이 없고 각각 독립된 개체라고 기본적으로 가정한다.

 

 

 

자료의 형태/특성에 따른 분류

1. 범주형 자료(categorical data)

질적자료(qualitative data)를 보통 범주형 자료로 나타낸다.

 

1-1. 명목형 자료(nominal data)

     • 숫자로 바꿔도 그 값이 크고 작음을 나타내지 않고, 단순히 범주를 의미함.

     • 혈액형 A, B, O, AB 를 숫자 1,2,3,4 로 바꿔도 되지만, 그 숫자가 크고 작음을 의미하는 것이 아니다. AB를 4로 표시한 것 뿐이지 AB가 4니까 제일 크다라고 말하는 건 이상하다.

 

1-2. 순서형 자료(ordinal data)

     • 범주의 순서로 상대 비교 가능함.

     • 수치형 자료를 범주화하여 순서형 자료로 바꾼 경우도 있다.

     • 비만도는 수치형 자료(몸무게, 키)들을 이용하여 계산한 값을 범주화한 순서형 자료이다.

     • 비만도(저체중, 정상, 과체중, 비만, 고도비만), 만족도(불만족, 보통, 만족)

 

 

< 범주형 자료(categorical data) 정리 방법 >

일변량 자료라고 가정한다.

 

(1) 도수분포표

     • 각 범주에 몇 개의 관측 개체가 있는지 '도수분포표'로 정리한다.

     • 도수(frequency): 범주의 속한 관측 개체의 수 (=빈도)

     • 상대도수(relative frequency): 전체 자료 중 해당 범주에 속한 자료의 비율

     • 순서형 자료의 경우 '누적'도수 및 '누적'상대도수를 같이 정리하면 자료를 파악하는데 도움이 된다.

 

(2) 원 도표 (pie chart)

     • 상대도수를 파이차트로 표현할 수 있다.

     • 원을 사용하는 이유는 다른 도형과 달리 각도와 면적의 비율이 항상 동일하기 때문이다.

     • 단 파이차트는 '비교'에 부적합할 수 있다. 특히 비슷한 비율의 범주들이 존재하거나 범주가 너무 많은 경우 비교하기 매우 어렵다.

 

(3) 막대 그래프 (bar chart)

     • 각 범주의 도수나 상대도수를 막대 길이로 표시하여 나타낸다.

     • 차이에 대한 인지 순서 by Cleveland(1985)

       - 동일한 척도에서의 위치 → 길이  각도&기울기  면적  부피  색상&밀도

     • 즉 비교를 할 때는 파이 차트보다 막대 그래프가 더 적합하다고 할 수 있다.

 

 

2. 수치형 자료(numerical data)

양적 자료(quantitative data)를 보통 수치형 자료로 나타낸다.

 

2-1. 이산형 자료(discrete data)

     • 셀 수 있음. (countable data)

     • 범주형 자료의 발생 빈도를 나타내어 수치형 자료로 나타낼 수 있다.

     • 충치 수는 충치 여부(있다/없다)의 발생 빈도를 나타낸 수치형 자료이다.

     • 어금니1: 충치 있다 / 어금니2: 충치 없다 / 앞니1: 충치 없다 / 그 외 나머지 : 충치 없다. => 충치 수: 2

 

2-2. 연속형 자료(continuous data)

     • 연속적이라 셀 수 없음.

     • 연속형 자료는 대부분 이산화를 통해 절사된 형태로 표시한다.

     • 키를 171cm 정수형태로 보통 표시하지만, 정확히는 170.5~171.5cm 사이 어딘가 171.0124...  일 것.

     • 즉 키는 정확하게 나타낼 수 없는, 셀 수 없는 숫자이기때문에 연속형 자료라고 할 수 있다.

 

 

< 수치형 자료(categorical data) 정리 방법 >

일변량 자료라고 가정한다.

 

(1) 도수분포표

     • 수치형 자료의 값이 몇 개로 한정된 경우에는 값 자체를 범주로 바로 사용해도 되지만,

     • 대부분 그렇지 않기 때문에 자료를 '범주화'하여(그룹으로 묶어서) 순서형 자료 형태로 변환한 뒤, 도수분포표를 작성한다. 순서형 자료를 도수분포표로 나타낼 때는 도수, 상대도수, 누적도수, 누적상대도수를 표시할 수 있다.

 

💡범주화하는 방법

• 계급(class)의 수 결정 ➡️ 제곱근 방법, Sturges 공식, Rice 공식 등
• 계급 경계값 결정 ➡️ 기본적으로 동일 간격

- 방법들은 참조할 뿐, 분석하는 사람이 자료의 특성/구조를 고려하여 적절하게 결정하는 것이 중요하다.
- 예를 들어 '키'에 대한 자료가 있는데 최소값은 142cm, 최대값은 209cm라고 한다. 이때 분석하는 사람이 "최소점은 140cm, 최대점은 210cm로 하고 기본 계급구간은 10cm로 하되 도수가 적은 계급구간은 통합하자" 라고 정할 수 있는 것이다. 이렇게 해서 데이터의 특성을 파악하는데 도움이 된다면 문제가 없다.

 

 

(2) 점 도표 (dot plot)

     • 각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 위로 누적한다.

 

(3) 히스토그램 (histogram)

     • 히스토그램은 수치형 자료 특히 연속형 자료의 분포 형태를 표시한다.

 

💡히스토그램 vs. 막대 그래프 차이는?

히스토그램
• 계급의 상대도수를 사각형의 면적으로 표시한다. (전체 면적의 합은 '1')
• 따라서 높이는 면적(상대도수)을 가로 길이(계급구간의 길이)로 나눈 값으로 표시한다. 통계학에서는 히스토그램의 높이를 '밀도(density)'라고 말한다. 

막대그래프
• 계급의 상대도수나 도수를 막대의 높이로 표시한다.

즉 계급 구간이 모두 동일한 간격이면 히스토그램이나 막대 그래프의 형태가 같게 나타나겠지만, 동일하지 않은 간격의 구간이 포함되어 있다면 형태가 다르게 나타날 것이다. 

 

 

(4) 줄기-잎 그림(stem-and-leaf plot)

     • 관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림

     • 히스토그램은 자료의 분포를 알려주지만 개별 관측값의 정보는 알 수가 없음.

 

(5) 상자그림(box plot)

     • 수치 자료 분의 산포를 알려주는 그림.

 

 

3. 정리

 범주형 자료의 발생 빈도를 '수치형 자료'로 나타낼 수 있다.

 수치형 자료를 범주화하면 '순서형 자료'로 나타낼 수 있다.

 즉 자료들을 하나의 고정된 형태로만 생각하지 말자. 왜냐하면 위 처럼 형태를 바꿔서 표현할 수 있기 때문이다. 상황에 따라 적절히 변환해서 사용할 수 있는 것이다. 그러니 서로 별개로 떼어놓고 생각하지 말고 연결고리를 만들어 생각하자.

 단, 여기서 중요한 점은 자료의 형태를 바꿔서 표현할 때 기존 정보의 손실이 발생할 수 있으니 반드시 유의하자.

 

 

 

척도

1. 척도란?

• 사람이나 사물 등 관측 대상의 특성을 수량화하기위해서 단위나 규칙을 가지고 숫자를 부여한 것.

 즉 질적자료를 양적자료로 변환시키는데 사용하는 도구

 

2. 척도의 분류

범주형 척도

 

(1) 명목척도(명명척도), nominal scale

    • 단순하게 측정 대상의 특성을 분류하거나 확인하기 위함

    • 숫자로 바꿔도 그 값이 크고 작음을 나타내지 않고 범주를 표시함

    • 예) 성별, 혈액형, 출생지역 등

 

(2) 서열척도(순위척도), ordinal scale

    • 항목들 간 서열이나 순위가 존재

    • 크고 작음 or 높고 낮다 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음

    • 예) 성적(A, B, C, D, F), 선호도, 만족도(Likert 척도) 등

 

연속형 척도

 

(1) 등간척도(구간척도), interval scale

    • 절대 0점은 존재하지 않으며, 대상이 갖는 양적인 정도의 차이에 따라 등간격으로 숫자를 부여한 척도

    • 순위 사이의 간격이 동일하여 양적인 비교가 가능함.

    • 예) 온도계, 물가지수 등

 

(2) 비율척도, ratio scale

    • 절대 0점이 존재하여 비율계산이 가능한 숫자를 부여한 척도

    • 예) 몸무게, 나이, 형제의 수, 직장까지의 거리 등

 

 

 

자료의 성격에 따른 통계분석 기법 선택

1. 범주형(종속변수) + 범주형 변수(독립변수)
교차분석(카이제곱검증)


2. 범주형(종속변수) + 연속형 변수(독립변수)
판별분석, 군집분석, 로지스틱회귀분석


3. 연속형(종속변수) + 범주형 변수(독립변수)
t-검증, 분산분석, 다변량분산분석


4. 연속형(종속변수) + 연속형 변수(독립변수)
상관분석, 회귀분석, 경로분석/구조방정식모델링분석

 

 

[참고자료]

블로그 - 통계 자료의 종류

(https://m.blog.naver.com/bloomingds/221232161942)

 

블로그 - 통계의 시작 - 자료와 변수의 종류

(https://drhongdatanote.tistory.com/3)

 

블로그 - 통계의 시작 - 척도의 종류

(https://drhongdatanote.tistory.com/8)

 

블로그 - 척도(Scale)

(https://m.blog.naver.com/firerisk/220865466294)

 

블로그 - 척도의 종류와 의미

(https://m.blog.naver.com/moses3650/221202517582)

 

블로그 - 척도와 집중경향성, 그 기본 성질에 대한 총 정리

(https://opinion.krsocsci.org/209)

 

블로그 - RPubs / ch5 측정척도의 유형과 내용 (통계기법의 선택)

(https://rpubs.com/Evan_Jung/measurement_scale)