통계 노트/기초통계

기초통계 / 표본 공분산, 표본 상관계수

yourhm 2022. 8. 15. 16:07

산점도(scatter plot)

각각의 관측 개체에 대해 두 수치형 변수의 값을 순서쌍으로 표현하고 2차원 평면상에 점으로 나타낸 그림. ⇒ 두 수치형 변수간에 관계가 있는지를 시각적으로 확인할 수 있다.

 

 

 

표본 공분산

 

표본 공분산 선형관계 산점도 유형
c > 0 두 수치형 변수간에 양의 선형관계가 존재한다. (A)
c < 0 두 수치형 변수간에 음의 선형관계가 존재한다. (B)
|c| ≈ 0 두 수치형 변수간에 선형관계가 존재하지 않다. 이것은 (D)와 같이 선형관계가 존재하지 않는다는 것이지, 다른 관계도 존재하지 않는다는 것을 의미하지 않는다. (C), (D)

 

표본 공분산의 문제점

• 표본 공분산을 통해서는 두 수치형 변수의 선형관계 존재 유무만 알 수 있을 뿐, 선형관계의 정도를 파악할 수는 없다.

 왜냐하면 표본 공분산은 측정 단위에 영향을 받기 때문이다.

 예를 들어 연도별 달리기 종목의 우승기록을 초 단위로 기록한 자료가 있다. 연도와 우승기록 두 변수의 표본 공분산을 구했더니 -13.98이 나왔고 이를 통해 두 변수간에 음의 상관관계가 존재한다는 것을 알 수 있다. 근데 이 우승기록을 분 단위로 표시해서 다시 표본 공분산을 구했더니 -0.23으로 값이 바뀌었다. 측정 단위만 바뀌었을 뿐 두 관계 사이에는 변함이 없어야 하는데 공분산 값이 변해버린 것이다.

 즉 표본 공분산의 절대적인 값을 가지고는 선형관계의 정도를 파악하거나 비교해서는 안된다.

 

 

 

표본 상관계수 (피어슨 상관계수)

 공분산은 변수의 측정 단위에 의존하게 되는 단점이 있어서, X와 Y의 측정 단위를 바꾸면 변수 사이에 관계가 변하는 것이 아닌 데도 공분산의 값은 바뀐다.

 그래서 단위에 의존하지 않도록, 공분산을 두 변수의 표준편차의 곱으로 나누어 이를 표본 상관계수(correlation coefficient)라고 정의하고, 이것을 두 변수 사이의 선형관계를 측정하는 단위로 주로 사용한다.

 

 

[참고]
피어슨 상관계수: 선형적인 관계의 크기만 측정 가능
스피어만 상관계수: 비선형적인 관계의 크기도 측정 가능 ⇒ 비모수 추정 관련임

 

표본 상관계수의 성질

표본 상관계수는 -1과 1사이의 값을 갖는다. ⇒ - 1 ≤ r  1

 

표본 상관계수 상관관계
|r|  1 두 수치형 변수간에 강한 상관관계가 존재한다. 즉. 기울기를 갖는 직선에 데이터가 조밀하게 모여있다.
r 이 양수 두 수치형 변수간에 양의 상관관계가 존재한다.
r 이 음수 두 수치형 변수간에 음의 상관관계가 존재한다.
|r|  0 두 수치형 변수간에 상관관계가 존재하지 않는다. 그렇다고 어떤 관계도 존재하지 않는다는 것은 아니다.

그럼 얼마 이상이어야 상관관계가 있다고 할 수 있을지?

 

 

표본 상관계수를 사용할 때 주의할 점

1) 허위 상관 (상관관계 ≠ 인과관계)

• 두 수치형 변수간에 상관관계가 존재한다는 것은 선형관계를 의미한 것이지, 인과관계를 의미하는 것은 아니다.

 예를 들어 '아이스크림 판매량'과 '수영장 이용객 수'라는 두 수치형 변수의 상관계수를 구했더니 매우 높은 양의 상관관계가 있음을 알 수 있었다. 그럼 수영장에서는 수영장 이용객 수를 늘리기 위해 아이스크림을 더 많이 팔면 되는 걸까? 아닐 것이다. 여기에는 두 변수 모두에 영향을 미치는 '여름 기온' 이라는 제 3의 변수가 있었다. 즉 여름 기온이 높아졌기 때문에 아이스크림 판매량도 늘어난 것이고 수영장 이용객 수도 늘어난 것이지, 아이스크림 판매량이 늘어서 수영장 이용객 수가 늘어난 것이 아니다. 그렇다면 여기서 여름 기온이라는 변수의 영향력을 제거하고 상관관계를 유도할 수 있을까?

 이처럼 둘 이상의 수치형 변수가 통계적으로 상관되어 있지만 사실 인과관계가 없는 것을 '허위 상관(spurious correlation)' 이라고 한다. 허위 상관은 우연에 의해 발생할 수도 있고, 해당 변수들에 영향을 주는 제 3의 잠복변수(lurking variable)의 존재에 의해 발생할 수도 있다.

 

2) 통합된 그룹의 상관관계

 통합된 데이터라면 그룹을 분리해서 상관관계를 파악할 필요가 있다.

 왜냐하면 통합된 상태일 때는 상관관계가 있는 것처럼 보이나 그룹으로 분리하면 사실 상관관계가 없을 수도 있고, 통합된 상태일 때는 상관관계가 없는 것처럼 보이나 그룹으로 분리하면 사실 상관관계가 있을 수도 있기 때문이다.

 

 

 

 

[참고자료]

송성주, 전명식. 수리통계학. 자유아카데미,  2020.