기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

통계 노트/기초통계

기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

yourhm 2022. 8. 14. 15:03

산포도

• 자료들이 얼마나 퍼져 있는지를 나타내는 측도

• 중심위치(대표값)가 얼마나 안정적인지에 대한 중요한 정보를 제공

- 자료가 조밀하게 모여있다. ⇒ 중심위치의 변동이 작아짐

- 자료가 넓게 퍼져있다. ⇒ 중심위치의 변동이 커짐

• 범위, 사분위 범위, 분산, 표준편차, 절대편차, 변동 계수 등

범위

• 자료 중 가장 큰 값과 작은 값의 차이

• 최대값과 최소값에만 영향을 받기때문에 자료 전체에 대해 퍼져있는 정도를 파악할 수는 없다. 그래서 실제 산포도로서 많이 사용되지는 않는다.

사분위 범위

1) 사분위수(quartile)

자료를 오름차순으로 정렬한 뒤, 동일한 비율로 4등분할 때의 세 위치

• 25%지점 → 제 1사분위수

• 50%지점 → 제 2사분위수 = 표본중앙값

• 75%지점 → 제 3사분위수

2) 사분위 범위(IQR)

제 3사분위수와 제 1사분위수의 차이

3) 사분위수 계산 방법

🔽 k가 정수인 경우: 순서통계량 k번째 수가 해당 사분위수

🔽 k가 정수가 아닌 경우: 비례에 의한 내삽법을 적용

4) 상자그림(box plot)

자료의 주요 위치 파악과 이상치 검출 등에 사용된다.

[출처]https://itwiki.kr/w/%EB%B0%95%EC%8A%A4_%ED%94%8C%EB%A1%AF

[참고] IQR 방식에서 IQR의 계수로 1.5를 사용하는 이유

https://djccnt15.github.io/dataanalysis/iqr_method/

편차(deviation)

• 자료의 변량에서 평균을 뺀 값.

• 편차의 총합은 항상 0.

• 편차의 절대값이 클수록 변량들이 평균에서 멀리 떨어져 있고,

• 편차의 절대값이 작을수록 변량들이 평균에 가까이 붙어 있다.

모든 자료들 간의 거리의 합을 이용해보자!

1) 먼저 두 점의 거리를 나타내는 두 가지 방법이 있다.

2) 그렇다면 모든 자료들 간의 거리의 합도 두 가지 방법으로 나타낼 수 있을 것이다.

• 자료들이 전체적으로 넓게 퍼져있으면 이 값은 커질 것이고 모여있으면 작아질 것이다.

• 다만 이렇게 모든 자료들 간의 거리의 합을 있는 그대로 구하면 결국 n 의 제곱만큼 더하기를 해야하므로 계산이 다소 번거로울 수 있다. 그래서 좀 더 효율적인 계산을 하기 위해 다른 방법이 고안되었다.

3) 중심위치 a와 모든 자료들 간 거리의 합으로 나타내보자.

여기서 적절한 중심위치 a는 어떻게 선택해야 할까?

• a와 자료들 간 거리의 합을 최소로 만드는 값이 적절한 a라고 할 수 있다.

• ②번부터 적절한 a 값을 확인해보자. ②번은 a에 대한 2차방정식의 합이다. 그러므로 간단하게 a에 대해 미분하여 0이 되는 값을 구하면 될 것이다. 그러면 결국 적절한 a는 표본 평균 값이 되는 것을 확인할 수 있다.

• ①번의 경우 a 로 미분불가능하지만, 그림을 그려보며 생각해보면 결국 적절한 a는 중앙값이 되는 것을 확인할 수 있다.

• 적절한 a 값을 확인했으니, 식을 다시 정리해보면 이렇게 쓸 수 있다. ①번 방법으로 퍼져있는 정도를 나타내고 싶다면 a를 중앙값으로 사용하고, ②번 방법으로 퍼져있는 정도를 나타내고 싶다면 a를 표본평균으로 사용해야한다. 여기서 ②번 방법을 정리한 식을 보면 결국 '편차의 제곱'의 합이 됨을 알 수 있다.(중요)

• ②번 방법을 보통 사용하는데 이 방법을 그대로 사용하여 퍼져있는 정도를 나타내는 것은 문제가 있다. 왜냐하면 계속 제곱을 해서 더하는 계산이므로 데이터가 많으면 많을수록 그 값의 크기가 계속 커질 것이기 때문이다. 즉 '데이터 개수가 많으면 많이 퍼져있다'라는 말은 못하게 표본의 크기를 보정해주어야 한다. 편차제곱을 표본의 크기로 나눠 평균을 냄으로써 표본의 크기를 보정해준 값이 바로 '표본 분산'이다.

표본 분산(sample variance)

• 편차를 이용하여 자료들이 평균을 중심으로 어느 정도로 흩어져있는지를 나타내는 값

• 편차제곱을 평균화하여 계산한다.

• 단, 편차 정보를 사용하기 때문에 n 이 아닌 n - 1 개의 편차 정보를 사용한다.

• 왜냐하면 편차의 총합은 0 이라는 제약조건때문에! ( n - 1 : 자유도 )

• 따라서 통계적 추론에서 표본 분산은 비편향추정량이 된다.

표본 표준편차(sample standard deviation)

• 표본 분산은 편차의 제곱합을 이용하므로 관측값 단위의 제곱이 되기때문에 숫자가 매우 커지게되고 단위도 바뀌어버리게된다. 그래서 표본 분산 값 자체는 산포를 직관적으로 이해하기 어려울 수 있다.

• 그렇기 때문에 눈으로 보는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시해야한다. 이를 위해 표본 분산에 루트를 씌운 값, 즉 표본 표준편차를 활용하여 표시한다.

표준편차의 이해

최근 10일동안 둘리와 또치는 둘다 하루 평균 8시간 공부했다고 한다. 평균 공부 시간이 같은 두 친구 중 누가 더 꾸준히 공부했다고 할 수 있을까? 평균 값이 같다고 두친구가 비슷하다고 말할 수 있을까? 이 때 표준편차를 계산하면 데이터를 다 확인하지 않아도 데이터의 분포를 어느 정도 파악할 수 있다.

<둘리>

평균: 8

표준편차: 5.3

평균 ± 표준편차: (2.7, 13.3)

⇒ 둘리는 가장 적게할 때는 대략 2.7시간, 가장 많이할 때는 13.3 시간 정도 했을 것으로 보이고

<또치>

평균: 8

표준편차: 1.6

평균 ± 표준편차: (6.4, 9.6)

⇒ 또치는 가장 적게할 때는 대략 6.4시간, 가장 많이할 때는 9.6 시간 정도 했을 것으로 보인다.

표준편차를 통해 데이터의 분포를 대략 유추해본 결과 둘다 하루 평균 8시간 공부했지만 또치가 표준편차가 더 작은걸로 보아, 둘리에 비해 또치가 더 꾸준히 공부했다고 말할 수 있을 것이다.

변동계수(coefficient of variation, cv)

• 위의 경우처럼 평균이 같은 표본들의 경우 표준편차만으로 산포를 비교할 수 있지만, 평균이 다른 표본들의 경우 표준편차만을 이용하여 산포를 비교하는 것은 적절하지 않을 수 있다.

• 평균이 다른 각 표본 사이의 표준편차를 비교할 때 평균의 영향을 없애주기 위해 표준편차를 산술평균으로 나누어줌으로써, 표준편차를 산술평균기준으로 표준화시킨 것을 '변동계수'라고 한다.

• 즉 변동계수는 자료의 상대적인 변동폭을 비교하는 측도가 된다.

• 변동계수의 값이 클수록 데이터 값의 차이가 상대적으로 크다는 것을 의미한다.

이번에는 평균 공부시간이 다른 둘리와 마이콜 둘 중에 누가 더 꾸준히 공부했는지 알아보려고 한다. 평균 값이 다르기때문에 평균 값의 영향을 없앨 수 있는 변동계수를 구하여 비교해보자. 둘리가 마이콜보다 표준편차의 절대적 값은 더 크지만, 변동계수 값 즉 상대적 변동폭은 더 작은 것으로 보아, 마이콜에 비해 둘리가 더 꾸준히 공부했다고 말할 수 있다.

표준화(standardization)

- 수능 시험은 과목별로 난이도가 다를 수 있기 때문에 원점수로 과목 간 성적을 비교하지 않는다. '표준화' 점수를 사용한다.

- 관측값에서 표본 평균을 뺀 뒤 표준편차로 나누어주면 표준화된 값을 구할 수 있다.

- 표준화된 값의 평균은 0, 표준화된 값의 표준편차는 1이다. ⇒ 즉 측정 단위에 영향을 받지 않게 중심위치와 척도 조정을 통해 절대비교 가능하다.

[참고자료]

datalink - coefficient of variation

https://www.datadata.link/qa03-3-2/

통계는에이스 - [최지민 박사의 통계 TV] 변동계수

https://youtu.be/swtL3cwQ1E0

'통계 노트 > 기초통계' 카테고리의 다른 글

기초통계 / 자료를 파악하는 방법 (표, 그래프) (0)	2022.08.15
기초통계 / 분포 형태를 나타내는 측도 (왜도, 첨도) (0)	2022.08.14
기초통계 / 대표값 (평균, 중앙값, 절사평균, 최빈값) (0)	2022.08.12
기초통계 / 자료의 종류, 척도의 종류 (0)	2022.07.07
기초통계 / 모집단과 표본 (0)	2022.07.07

현재글기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

글쓰기 | 관리자

정규표현식, IT지식, 체인지업, 비전공자를 위한 이해할 수 있는 IT지식, 정규식, 윈도우함수, API,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

limhm's blog

기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

산포도

범위