분류 전체보기 89

AIB_212_복습정리 : Multiple Linear Regression / Bias-Variance Trade off

단순 선형회귀 모델 : 특성이 하나뿐인 선형회귀 모델 ▶ 2차원 직선 다중 선형회귀 모델 : 특성이 여러개인 선형회귀 모델 (하나의 특성만으로된 모델로는 데이터들을 설명할 수 없는 경우) ▶ 특성의 갯수만큼 차원이 늘어남. • 다중선형회귀 모델은 여러개의 독립변수와 한개의 종속변수와의 관계(독립변수들이 종속변수에 미치는 영향 즉 인과관계를 분석)를 사용하여 예측하는 모델이다. • 사실상 특성이 3개 이상이 되어 4차원을 넘어서는 순간부터 직관적 이해가 불가능 • 분석 그래프의 차원이 증가하면 계산이 복잡해질뿐만아니라 '다중공선성', '과적합', 차원의저주' 등과 같은 문제가 발생하기도 한다. 이런 부수적인 문제들까지도 고려를 해야하는 모델이다. • 식 (2)에서 회귀계수는 단순회귀모형에서처럼 독립변수와 ..

AIB_211_복습정리 : Simple Linear Regression

Baseline Model (기준모델) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적인, 최소한의 성능을 나타내는 기준이 되는 모델, 여기서는 평균값을 기준으로 사용하여 '평균기준모델'이라고 말할 수 있다. feature의 갯수와는 상관이 없음. 기준모델은 일반적으로 문제에 따라 다음과 같이 설정한다. • 분류문제: 타겟의 최빈 클래스 • 회귀문제: 타겟의 평균값 • 시계열회귀문제: 이전 타임스탬프의 값 회귀 분석 단순 선형회귀분석이란 단일 독립변수에 대한 종속변수의 추이를 분석하는 것이다. 단순 선형회귀 모델 직선이므로 아래와 같은 식으로 표현할 수 있다. 이러한 형태의 식은 독립변수와 종속변수간의 관계를 설명해준다. • 독립변수 (Independent Variable, x): 예측(pr..

AIB_133_복습정리 : 선형변환, 고유값, 고유벡터, PCA

차원 축소 변수(피쳐)가 많다고 모든 변수를 다 활용하여 모델을 만드는 것이 꼭 좋은 것만은 아니다. 모든 변수중에서 설명력이 높은 변수만 선택해서 사용할 수도 있고, 특정 분석기법을 활용하여 설명력 높은 모델을 만드는 데 도움이 되게끔 차원을 축소할 수도 있다. [참고] 차원 축소를 목표로 하여 개발된 분석 기법 1. 주성분 분석 2. 요인 분석 3. 판별 분석 4. 군집 분석 5. 정준 상관 분석 6. 다차원 척도법 차원 축소를 위한 접근 방법 차원 축소 알고리즘을 이해하기 위해서는 투영과 매니폴드 학습 두가지 접근법을 이해해야 한다. 1. 투영 2. 매니폴드 주성분 분석 (PCA, Principal Component Analysis) - 가장 보편적인 차원 축소 알고리즘 중 하나. - 데이터의 분포..

AIB_123_복습정리 : ANOVA, CLT, CI

ANOVA (분산 분석) : 2개 이상 다수의 집단을 서로 비교하고자 할 때 F-분포를 이용하여 가설검정을 하는 방법 예를 들어서 집단이 가, 나, 다 3개가 있을 때 서로 비교한다고 하자. ㄴ 기존에 배웠던 t-test를 통해 한번씩 해보면 되지 않나? 가vs나, 나vs다, 다vs가 ㄴ 이론상으로는 가능. 그러나 여러개를 하나하나씩 비교하면 집단 수가 늘어 날수록 에러도 커진다. (왜냐하면, m개 그룹에 대한 가설 검정이라면 아래라는 것이, 수학적으로 증명이 되어있다고한다. 왜??) ㄴ 이렇기 때문에 여러개의 집단을 한꺼번에 비교하는 방법이 필요하다. 큰 수의 법칙 시행횟수를 무한히 늘려가면, 통계적 확률이 수학적 확률에 가까워진다. 예시 동전 던지기를 생각해보자. ㄴ 사건 A: 동전을 던져서 앞면이 ..

AIB_122_복습정리 : More Hypothesis Testing

비모수적 검정 • 모집단이 특정 분포를 따른다는 전제를 하지 않고 검정하는 방법 • categorical data이거나 극단적 outlier가 있는 경우 매우 유효한 방식이다. 비모수적 검정의 종류 • chi-square test • Kolmogorov-Smirnov test • Wald-Wolfowitz run test • Mann-Whitney U test • Wilcoxon • run test • sign test 카이 제곱 검정(chi-square test) • 카이제곱 분포에 기초한 통계적 검정 방법 • 표본 집단의 분포를 비교할 때 이용한다. • 특히 명목척도 자료에 대해서만 사용이 가능하다. • 카이 제곱 적합성 검정 • 카이 제곱 독립성 검정 • 카이 제곱 동질성 검정 [참고자료] gaye..

AIB_121_복습정리 : 가설검정, T-test

가설검정 모집단에 대한 정보를 알아보기 위하여, 모집단에 대한 어떤 가설을 설정한 뒤에 표본의 통계량을 통해 통계적으로 유의한지 판정하여 그 가설의 채택 여부를 결정하는 통계적 추론 방법. 1) 귀무가설 - 처음부터 버릴 것으로 예상하는 가설 - 직접 검증의 대상이 되는 가설로 연구자가 부정하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 없다. 2) 대립가설 - 처음부터 채택할 것으로 예상하는 가설 - 귀무가설에 반대되는 사실로 연구자가 주장하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 있다. 3) 유의확률(significance probability) - p값(p-value) - 1종 오류를 범할 확률 - 귀무가설을 지지하는 정도 - 유의확률(p값)이 유의수준(alph..

AIB_121_복습정리 : Introduction to Data Science (1)

통계학에 대한 이해 • 데이터는 거의 모든 분야에서 발생하고 있고 데이터를 이용하여 우리는 보다 나은 의사결정을 할 수 있다. 더 나은 의사결정은 확률을 계산함으로써 가능해진다. 이러한 확률은 데이터와 만나 구체적으로 계산되어야 유용하다. 이에 대한 과학적 방법을 연구하는 것이 통계학이다. • '경험주의'에 의하면 우리는 모든 데이터를 다 관측할 수 없기에 그 지식을 결코 확신할 수 없다는 난관에 부딪히고, 따라서 확신하지 못하는 지식을 얼마나 신뢰할 수 있겠냐는 문제가 생긴다. 이런 문제를 수리적인 방법으로 해결한 것이 결국 통계학이다. • 통계적 가설검정은 일종의 '귀류법'으로 볼 수 있다. 어떤 가설을 데이터로 증명하는게 아니라, 그 가설을 일단 부정한 후에 (=귀무가설이라고함) 데이터가 그 귀무가..