통계 노트/기초통계

기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

yourhm 2022. 8. 14. 15:03

산포도

• 자료들이 얼마나 퍼져 있는지를 나타내는 측도

중심위치(대표값)가 얼마나 안정적인지에 대한 중요한 정보를 제공

     - 자료가 조밀하게 모여있다. ⇒ 중심위치의 변동이 작아짐

     - 자료가 넓게 퍼져있다. ⇒ 중심위치의 변동이 커짐

 범위, 사분위 범위, 분산, 표준편차, 절대편차, 변동 계수 등

 

 

 

범위

 자료 중 가장 큰 값과 작은 값의 차이

 최대값과 최소값에만 영향을 받기때문에 자료 전체에 대해 퍼져있는 정도를 파악할 수는 없다. 그래서 실제 산포도로서 많이 사용되지는 않는다.

 

 

 

사분위 범위

1) 사분위수(quartile)

자료를 오름차순으로 정렬한 뒤, 동일한 비율로 4등분할 때의 세 위치

 

• 25%지점 → 제 1사분위수

50%지점 → 제 2사분위수 = 표본중앙값

75%지점 → 제 3사분위수

 

 

2) 사분위 범위(IQR)

제 3사분위수와 제 1사분위수의 차이

 

 

3) 사분위수 계산 방법

 

🔽 k가 정수인 경우: 순서통계량 k번째 수가 해당 사분위수

 

🔽 k가 정수가 아닌 경우: 비례에 의한 내삽법을 적용

 

 

4) 상자그림(box plot)

자료의 주요 위치 파악과 이상치 검출 등에 사용된다.

[출처]https://itwiki.kr/w/%EB%B0%95%EC%8A%A4_%ED%94%8C%EB%A1%AF

 

 

[참고] IQR 방식에서 IQR의 계수로 1.5를 사용하는 이유

https://djccnt15.github.io/dataanalysis/iqr_method/

 

 

 

편차(deviation)

 

 자료의 변량에서 평균을 뺀 값.

 편차의 총합은 항상 0. 

 편차의 절대값이 클수록 변량들이 평균에서 멀리 떨어져 있고,

 편차의 절대값이 작을수록 변량들이 평균에 가까이 붙어 있다.

 

 

 

모든 자료들 간의 거리의 합을 이용해보자!

1) 먼저 두 점의 거리를 나타내는 두 가지 방법이 있다.

 

2) 그렇다면 모든 자료들 간의 거리의 합도 두 가지 방법으로 나타낼 수 있을 것이다.

• 자료들이 전체적으로 넓게 퍼져있으면 이 값은 커질 것이고 모여있으면 작아질 것이다.

다만 이렇게 모든 자료들 간의 거리의 합을 있는 그대로 구하면 결국 n 의 제곱만큼 더하기를 해야하므로 계산이 다소 번거로울 수 있다. 그래서 좀 더 효율적인 계산을 하기 위해 다른 방법이 고안되었다.

 

 

3) 중심위치 a와 모든 자료들 간 거리의 합으로 나타내보자.

여기서 적절한 중심위치 a는 어떻게 선택해야 할까?

a와 자료들 간 거리의 합을 최소로 만드는 값이 적절한 a라고 할 수 있다. 

②번부터 적절한 a 값을 확인해보자. ②번은 a에 대한 2차방정식의 합이다. 그러므로 간단하게 a에 대해 미분하여 0이 되는 값을 구하면 될 것이다. 그러면 결국 적절한 a는 표본 평균 값이 되는 것을 확인할 수 있다.

 ①번의 경우 a 로 미분불가능하지만, 그림을 그려보며 생각해보면 결국 적절한 a는 중앙값이 되는 것을 확인할 수 있다. 

적절한 a 값을 확인했으니, 식을 다시 정리해보면 이렇게 쓸 수 있다. ①번 방법으로 퍼져있는 정도를 나타내고 싶다면 a를 중앙값으로 사용하고, ②번 방법으로 퍼져있는 정도를 나타내고 싶다면 a를 표본평균으로 사용해야한다. 여기서 ②번 방법을 정리한 식을 보면 결국 '편차의 제곱'의 합이 됨을 알 수 있다.(중요)

②번 방법을 보통 사용하는데 이 방법을 그대로 사용하여 퍼져있는 정도를 나타내는 것은 문제가 있다. 왜냐하면 계속 제곱을 해서 더하는 계산이므로 데이터가 많으면 많을수록 그 값의 크기가 계속 커질 것이기 때문이다. 즉 '데이터 개수가 많으면 많이 퍼져있다'라는 말은 못하게 표본의 크기를 보정해주어야 한다. 편차제곱을 표본의 크기로 나눠 평균을 냄으로써 표본의 크기를 보정해준 값이 바로 '표본 분산'이다.

 

 

 

표본 분산(sample variance)

 

• 편차를 이용하여 자료들이 평균을 중심으로 어느 정도로 흩어져있는지를 나타내는 값

 편차제곱을 평균화하여 계산한다.

• 단, 편차 정보를 사용하기 때문에 n 이 아닌 n - 1 개의 편차 정보를 사용한다.

왜냐하면 편차의 총합은 0 이라는 제약조건때문에! ( n - 1 : 자유도 )

• 따라서 통계적 추론에서 표본 분산은 비편향추정량이 된다.

 

 

 

표본 표준편차(sample standard deviation)

 

 표본 분산은 편차의 제곱합을 이용하므로 관측값 단위의 제곱이 되기때문에 숫자가 매우 커지게되고 단위도 바뀌어버리게된다. 그래서 표본 분산 값 자체는 산포를 직관적으로 이해하기 어려울 수 있다.

그렇기 때문에 눈으로 보는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시해야한다. 이를 위해 표본 분산에 루트를 씌운 값, 즉 표본 표준편차를 활용하여 표시한다.

 

 

표준편차의 이해

 

최근 10일동안 둘리와 또치는 둘다 하루 평균 8시간 공부했다고 한다. 평균 공부 시간이 같은 두 친구 중 누가 더 꾸준히 공부했다고 할 수 있을까? 평균 값이 같다고 두친구가 비슷하다고 말할 수 있을까? 이 때 표준편차를 계산하면 데이터를 다 확인하지 않아도 데이터의 분포를 어느 정도 파악할 수 있다.

 

<둘리>

평균: 8

표준편차: 5.3

평균 ± 표준편차: (2.7, 13.3)

⇒ 둘리는 가장 적게할 때는 대략 2.7시간, 가장 많이할 때는 13.3 시간 정도 했을 것으로 보이고

 

<또치>

평균: 8

표준편차: 1.6

평균 ± 표준편차: (6.4, 9.6)

 또치는 가장 적게할 때는 대략 6.4시간, 가장 많이할 때는 9.6 시간 정도 했을 것으로 보인다.

 

표준편차를 통해 데이터의 분포를 대략 유추해본 결과 둘다 하루 평균 8시간 공부했지만 또치가 표준편차가 더 작은걸로 보아, 둘리에 비해 또치가 더 꾸준히 공부했다고 말할 수 있을 것이다.

 

 

 

변동계수(coefficient of variation, cv)

 위의 경우처럼 평균이 같은 표본들의 경우 표준편차만으로 산포를 비교할 수 있지만, 평균이 다른 표본들의 경우 표준편차만을 이용하여 산포를 비교하는 것은 적절하지 않을 수 있다.

 평균이 다른 각 표본 사이의 표준편차를 비교할 때 평균의 영향을 없애주기 위해 표준편차를 산술평균으로 나누어줌으로써, 표준편차를 산술평균기준으로 표준화시킨 것을 '변동계수'라고 한다.

 즉 변동계수는 자료의 상대적인 변동폭을 비교하는 측도가 된다.

 변동계수의 값이 클수록 데이터 값의 차이가 상대적으로 크다는 것을 의미한다.

 

 

이번에는 평균 공부시간이 다른 둘리와 마이콜 둘 중에 누가 더 꾸준히 공부했는지 알아보려고 한다. 평균 값이 다르기때문에 평균 값의 영향을 없앨 수 있는 변동계수를 구하여 비교해보자. 둘리가 마이콜보다 표준편차의 절대적 값은 더 크지만, 변동계수 값 즉 상대적 변동폭은 더 작은 것으로 보아, 마이콜에 비해 둘리가 더 꾸준히 공부했다고 말할 수 있다.

 

 

 

표준화(standardization)

- 수능 시험은 과목별로 난이도가 다를 수 있기 때문에 원점수로 과목 간 성적을 비교하지 않는다. '표준화' 점수를 사용한다.

- 관측값에서 표본 평균을 뺀 뒤 표준편차로 나누어주면 표준화된 값을 구할 수 있다.

- 표준화된 값의 평균은 0, 표준화된 값의 표준편차는 1이다. ⇒ 즉 측정 단위에 영향을 받지 않게 중심위치와 척도 조정을 통해 절대비교 가능하다.

 

 

 

[참고자료]

datalink - coefficient of variation

https://www.datadata.link/qa03-3-2/

 

통계는에이스 - [최지민 박사의 통계 TV] 변동계수

https://youtu.be/swtL3cwQ1E0