코드스테이츠 AI 부트캠프/Section 1 10

AIB_133_복습정리 : 선형변환, 고유값, 고유벡터, PCA

차원 축소 변수(피쳐)가 많다고 모든 변수를 다 활용하여 모델을 만드는 것이 꼭 좋은 것만은 아니다. 모든 변수중에서 설명력이 높은 변수만 선택해서 사용할 수도 있고, 특정 분석기법을 활용하여 설명력 높은 모델을 만드는 데 도움이 되게끔 차원을 축소할 수도 있다. [참고] 차원 축소를 목표로 하여 개발된 분석 기법 1. 주성분 분석 2. 요인 분석 3. 판별 분석 4. 군집 분석 5. 정준 상관 분석 6. 다차원 척도법 차원 축소를 위한 접근 방법 차원 축소 알고리즘을 이해하기 위해서는 투영과 매니폴드 학습 두가지 접근법을 이해해야 한다. 1. 투영 2. 매니폴드 주성분 분석 (PCA, Principal Component Analysis) - 가장 보편적인 차원 축소 알고리즘 중 하나. - 데이터의 분포..

AIB_123_복습정리 : ANOVA, CLT, CI

ANOVA (분산 분석) : 2개 이상 다수의 집단을 서로 비교하고자 할 때 F-분포를 이용하여 가설검정을 하는 방법 예를 들어서 집단이 가, 나, 다 3개가 있을 때 서로 비교한다고 하자. ㄴ 기존에 배웠던 t-test를 통해 한번씩 해보면 되지 않나? 가vs나, 나vs다, 다vs가 ㄴ 이론상으로는 가능. 그러나 여러개를 하나하나씩 비교하면 집단 수가 늘어 날수록 에러도 커진다. (왜냐하면, m개 그룹에 대한 가설 검정이라면 아래라는 것이, 수학적으로 증명이 되어있다고한다. 왜??) ㄴ 이렇기 때문에 여러개의 집단을 한꺼번에 비교하는 방법이 필요하다. 큰 수의 법칙 시행횟수를 무한히 늘려가면, 통계적 확률이 수학적 확률에 가까워진다. 예시 동전 던지기를 생각해보자. ㄴ 사건 A: 동전을 던져서 앞면이 ..

AIB_122_복습정리 : More Hypothesis Testing

비모수적 검정 • 모집단이 특정 분포를 따른다는 전제를 하지 않고 검정하는 방법 • categorical data이거나 극단적 outlier가 있는 경우 매우 유효한 방식이다. 비모수적 검정의 종류 • chi-square test • Kolmogorov-Smirnov test • Wald-Wolfowitz run test • Mann-Whitney U test • Wilcoxon • run test • sign test 카이 제곱 검정(chi-square test) • 카이제곱 분포에 기초한 통계적 검정 방법 • 표본 집단의 분포를 비교할 때 이용한다. • 특히 명목척도 자료에 대해서만 사용이 가능하다. • 카이 제곱 적합성 검정 • 카이 제곱 독립성 검정 • 카이 제곱 동질성 검정 [참고자료] gaye..

AIB_121_복습정리 : 가설검정, T-test

가설검정 모집단에 대한 정보를 알아보기 위하여, 모집단에 대한 어떤 가설을 설정한 뒤에 표본의 통계량을 통해 통계적으로 유의한지 판정하여 그 가설의 채택 여부를 결정하는 통계적 추론 방법. 1) 귀무가설 - 처음부터 버릴 것으로 예상하는 가설 - 직접 검증의 대상이 되는 가설로 연구자가 부정하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 없다. 2) 대립가설 - 처음부터 채택할 것으로 예상하는 가설 - 귀무가설에 반대되는 사실로 연구자가 주장하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 있다. 3) 유의확률(significance probability) - p값(p-value) - 1종 오류를 범할 확률 - 귀무가설을 지지하는 정도 - 유의확률(p값)이 유의수준(alph..

AIB_121_복습정리 : Introduction to Data Science (1)

통계학에 대한 이해 • 데이터는 거의 모든 분야에서 발생하고 있고 데이터를 이용하여 우리는 보다 나은 의사결정을 할 수 있다. 더 나은 의사결정은 확률을 계산함으로써 가능해진다. 이러한 확률은 데이터와 만나 구체적으로 계산되어야 유용하다. 이에 대한 과학적 방법을 연구하는 것이 통계학이다. • '경험주의'에 의하면 우리는 모든 데이터를 다 관측할 수 없기에 그 지식을 결코 확신할 수 없다는 난관에 부딪히고, 따라서 확신하지 못하는 지식을 얼마나 신뢰할 수 있겠냐는 문제가 생긴다. 이런 문제를 수리적인 방법으로 해결한 것이 결국 통계학이다. • 통계적 가설검정은 일종의 '귀류법'으로 볼 수 있다. 어떤 가설을 데이터로 증명하는게 아니라, 그 가설을 일단 부정한 후에 (=귀무가설이라고함) 데이터가 그 귀무가..

1 2