산점도(scatter plot)
각각의 관측 개체에 대해 두 수치형 변수의 값을 순서쌍으로 표현하고 2차원 평면상에 점으로 나타낸 그림. ⇒ 두 수치형 변수간에 관계가 있는지를 시각적으로 확인할 수 있다.
표본 공분산
표본 공분산 | 선형관계 | 산점도 유형 |
c > 0 | 두 수치형 변수간에 양의 선형관계가 존재한다. | (A) |
c < 0 | 두 수치형 변수간에 음의 선형관계가 존재한다. | (B) |
|c| ≈ 0 | 두 수치형 변수간에 선형관계가 존재하지 않다. 이것은 (D)와 같이 선형관계가 존재하지 않는다는 것이지, 다른 관계도 존재하지 않는다는 것을 의미하지 않는다. | (C), (D) |
표본 공분산의 문제점
• 표본 공분산을 통해서는 두 수치형 변수의 선형관계 존재 유무만 알 수 있을 뿐, 선형관계의 정도를 파악할 수는 없다.
• 왜냐하면 표본 공분산은 측정 단위에 영향을 받기 때문이다.
• 예를 들어 연도별 달리기 종목의 우승기록을 초 단위로 기록한 자료가 있다. 연도와 우승기록 두 변수의 표본 공분산을 구했더니 -13.98이 나왔고 이를 통해 두 변수간에 음의 상관관계가 존재한다는 것을 알 수 있다. 근데 이 우승기록을 분 단위로 표시해서 다시 표본 공분산을 구했더니 -0.23으로 값이 바뀌었다. 측정 단위만 바뀌었을 뿐 두 관계 사이에는 변함이 없어야 하는데 공분산 값이 변해버린 것이다.
• 즉 표본 공분산의 절대적인 값을 가지고는 선형관계의 정도를 파악하거나 비교해서는 안된다.
표본 상관계수 (피어슨 상관계수)
• 공분산은 변수의 측정 단위에 의존하게 되는 단점이 있어서, X와 Y의 측정 단위를 바꾸면 변수 사이에 관계가 변하는 것이 아닌 데도 공분산의 값은 바뀐다.
• 그래서 단위에 의존하지 않도록, 공분산을 두 변수의 표준편차의 곱으로 나누어 이를 표본 상관계수(correlation coefficient)라고 정의하고, 이것을 두 변수 사이의 선형관계를 측정하는 단위로 주로 사용한다.
[참고]
피어슨 상관계수: 선형적인 관계의 크기만 측정 가능
스피어만 상관계수: 비선형적인 관계의 크기도 측정 가능 ⇒ 비모수 추정 관련임
표본 상관계수의 성질
표본 상관계수는 -1과 1사이의 값을 갖는다. ⇒ - 1 ≤ r ≤ 1
표본 상관계수 | 상관관계 |
|r| ≈ 1 | 두 수치형 변수간에 강한 상관관계가 존재한다. 즉. 기울기를 갖는 직선에 데이터가 조밀하게 모여있다. |
r 이 양수 | 두 수치형 변수간에 양의 상관관계가 존재한다. |
r 이 음수 | 두 수치형 변수간에 음의 상관관계가 존재한다. |
|r| ≈ 0 | 두 수치형 변수간에 상관관계가 존재하지 않는다. 그렇다고 어떤 관계도 존재하지 않는다는 것은 아니다. |
그럼 얼마 이상이어야 상관관계가 있다고 할 수 있을지?
표본 상관계수를 사용할 때 주의할 점
1) 허위 상관 (상관관계 ≠ 인과관계)
• 두 수치형 변수간에 상관관계가 존재한다는 것은 선형관계를 의미한 것이지, 인과관계를 의미하는 것은 아니다.
• 예를 들어 '아이스크림 판매량'과 '수영장 이용객 수'라는 두 수치형 변수의 상관계수를 구했더니 매우 높은 양의 상관관계가 있음을 알 수 있었다. 그럼 수영장에서는 수영장 이용객 수를 늘리기 위해 아이스크림을 더 많이 팔면 되는 걸까? 아닐 것이다. 여기에는 두 변수 모두에 영향을 미치는 '여름 기온' 이라는 제 3의 변수가 있었다. 즉 여름 기온이 높아졌기 때문에 아이스크림 판매량도 늘어난 것이고 수영장 이용객 수도 늘어난 것이지, 아이스크림 판매량이 늘어서 수영장 이용객 수가 늘어난 것이 아니다. 그렇다면 여기서 여름 기온이라는 변수의 영향력을 제거하고 상관관계를 유도할 수 있을까?
• 이처럼 둘 이상의 수치형 변수가 통계적으로 상관되어 있지만 사실 인과관계가 없는 것을 '허위 상관(spurious correlation)' 이라고 한다. 허위 상관은 우연에 의해 발생할 수도 있고, 해당 변수들에 영향을 주는 제 3의 잠복변수(lurking variable)의 존재에 의해 발생할 수도 있다.
2) 통합된 그룹의 상관관계
• 통합된 데이터라면 그룹을 분리해서 상관관계를 파악할 필요가 있다.
• 왜냐하면 통합된 상태일 때는 상관관계가 있는 것처럼 보이나 그룹으로 분리하면 사실 상관관계가 없을 수도 있고, 통합된 상태일 때는 상관관계가 없는 것처럼 보이나 그룹으로 분리하면 사실 상관관계가 있을 수도 있기 때문이다.
[참고자료]
송성주, 전명식. 수리통계학. 자유아카데미, 2020.
'통계 노트 > 기초통계' 카테고리의 다른 글
기초통계 / 확률변수의 기대값 (0) | 2022.08.18 |
---|---|
기초통계 / 확률 변수, 확률 분포 (0) | 2022.08.16 |
기초통계 / 자료를 파악하는 방법 (표, 그래프) (0) | 2022.08.15 |
기초통계 / 분포 형태를 나타내는 측도 (왜도, 첨도) (0) | 2022.08.14 |
기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수) (0) | 2022.08.14 |