코드스테이츠 AI 부트캠프/Section 1

AIB_121_복습정리 : Introduction to Data Science (1)

yourhm 2021. 9. 26. 13:28

통계학에 대한 이해

• 데이터는 거의 모든 분야에서 발생하고 있고 데이터를 이용하여 우리는 보다 나은 의사결정을 할 수 있다. 더 나은 의사결정은 확률을 계산함으로써 가능해진다. 이러한 확률은 데이터와 만나 구체적으로 계산되어야 유용하다. 이에 대한 과학적 방법을 연구하는 것이 통계학이다.

• '경험주의'에 의하면 우리는 모든 데이터를 다 관측할 수 없기에 그 지식을 결코 확신할 수 없다는 난관에 부딪히고, 따라서 확신하지 못하는 지식을 얼마나 신뢰할 수 있겠냐는 문제가 생긴다. 이런 문제를 수리적인 방법으로 해결한 것이 결국 통계학이다.

• 통계적 가설검정은 일종의 '귀류법'으로 볼 수 있다. 어떤 가설을 데이터로 증명하는게 아니라, 그 가설을 일단 부정한 후에 (=귀무가설이라고함) 데이터가 그 귀무가설을 확률적으로 강하게 반증하는 경우 처음 가설을 채택하는 논리를 따른다.

 

 

1) 과학으로서의 통계학

논리학에서는 어떤 결론을 얻어내기 위해서 논거, 전제, 논리가 결합되어야 한다. 이 삼박자가 잘 맞아야 올바른 결론을 얻게된다. 통계학적으로 아래와 같이 표현할 수 있다.

 

논리학 통계학
논거 ⇒ 데이터
전제 ⇒ 모델
논리 ⇒ 통계방법론

 

1-1) 과학으로서 통계학이 전제하고 있는 첫번째 요인: 질 좋은 데이터

=> '자료의 대표성'과 '측정의 정확성'이 양질의 데이터를 결정짓는다.

 

1-2) 과학으로서 통계학이 전제하고 있는 두번째 요인: 모델의 적절성

=>모델의 적절성은 자료의 구조에 대한 이해를 전제로 한다. 자료가 범주형인지, 연속형인지, 시계열인지 공간자료인지, 계층적 구조를 가진것인지 아닌지 이러한 정보들은 자료의 구조에 대한 이해를 전제로 하고 이것은 모형의 적절성을 결정한다. 모델의 적절성은 그 모델이 데이터의 현실을 얼마나 잘 반영하느냐에 따라 판단됨 = 자료의 구조를 이해해야함을 의미.

 

이러한 두 가지 전제를 만족하여 얻어진 통계학적 결론은 상당한 수준의 과학적 근거를 가지게 된다.

(이 중에서 그래도 제일 중요한 것을 고르라면 데이터일 것이다. 아무리 훌륭한 모델과 좋은 방법론을 가지고 있더라도 데이터가 구리면, 결국 구린 결과가 얻어지는 것! Garbage In Garbage Out)

 

 

2) 공학으로서의 통계학

위에서 말한 20세기에 크게 발전한 '과학으로서의 통계학'은 데이터를 통해 지식을 발견하는 과정의 주체가 인간임을 전제로 하는 것이기에 인간의 끊임없는 개입과 해석을 요구하고 있다. 반면 전산학에서는 학습의 주체가 사람이 아닌 컴퓨터(기계)이기에 인간의 개입을 최소화 하고 있다. 21세기에는 기계학습(머신러닝)과 통계학, 두 학문 분야의 경계가 허물어지고 융합되고 있다.

 

 

[참고자료]

위 내용은 아래 글에 대해 요약 정리한 것입니다.

김재광, "통계학 이야기", HORIZON, 2020년 9월 7일.(https://horizon.kias.re.kr/15283/)