분류 전체보기 92

AIB_231_복습정리 : 불균형 클래스

불균형 클래스 (class imbalance) 불균형 클래스는 머신러닝의 분류 문제에서 발생하는 문제이다. 데이터를 보면 보통 target의 클래스 비중이 차이가 많이 나는 경우가 많다. (사기 탐지, 폐기 예측, 의료 진단, 이메일 분류 등) 대부분의 머신러닝 알고리즘은 데이터가 클래스 내에 고르게 분포되어 있다고 가정한다. 그렇기 때문에 알고리즘은 다수 클래스를 예측하는 데 더 편향된다는 것이다. 알고리즘에는 소수 클래스에 있는 패턴을 학습하기에 충분한 정보가 없다. 클래스 빈도 차이는 모델의 전반적인 예측 가능성에 영향을 미친다. 쉽게 이해하기 위한 예를 들어보면, 내가 고향에서 오랫동안 살다가 최근에 새로운 도시로 이사했고 이사한지 한달정도 되었다고 생각해보자. 고향 동네에 대해서는 어린 시절부터..

AIB_212_복습정리 : Multiple Linear Regression / Bias-Variance Trade off

단순 선형회귀 모델 : 특성이 하나뿐인 선형회귀 모델 ▶ 2차원 직선 다중 선형회귀 모델 : 특성이 여러개인 선형회귀 모델 (하나의 특성만으로된 모델로는 데이터들을 설명할 수 없는 경우) ▶ 특성의 갯수만큼 차원이 늘어남. • 다중선형회귀 모델은 여러개의 독립변수와 한개의 종속변수와의 관계(독립변수들이 종속변수에 미치는 영향 즉 인과관계를 분석)를 사용하여 예측하는 모델이다. • 사실상 특성이 3개 이상이 되어 4차원을 넘어서는 순간부터 직관적 이해가 불가능 • 분석 그래프의 차원이 증가하면 계산이 복잡해질뿐만아니라 '다중공선성', '과적합', 차원의저주' 등과 같은 문제가 발생하기도 한다. 이런 부수적인 문제들까지도 고려를 해야하는 모델이다. • 식 (2)에서 회귀계수는 단순회귀모형에서처럼 독립변수와 ..

AIB_211_복습정리 : Simple Linear Regression

Baseline Model (기준모델) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적인, 최소한의 성능을 나타내는 기준이 되는 모델, 여기서는 평균값을 기준으로 사용하여 '평균기준모델'이라고 말할 수 있다. feature의 갯수와는 상관이 없음. 기준모델은 일반적으로 문제에 따라 다음과 같이 설정한다. • 분류문제: 타겟의 최빈 클래스 • 회귀문제: 타겟의 평균값 • 시계열회귀문제: 이전 타임스탬프의 값 회귀 분석 단순 선형회귀분석이란 단일 독립변수에 대한 종속변수의 추이를 분석하는 것이다. 단순 선형회귀 모델 직선이므로 아래와 같은 식으로 표현할 수 있다. 이러한 형태의 식은 독립변수와 종속변수간의 관계를 설명해준다. • 독립변수 (Independent Variable, x): 예측(pr..

AIB_133_복습정리 : 선형변환, 고유값, 고유벡터, PCA

차원 축소 변수(피쳐)가 많다고 모든 변수를 다 활용하여 모델을 만드는 것이 꼭 좋은 것만은 아니다. 모든 변수중에서 설명력이 높은 변수만 선택해서 사용할 수도 있고, 특정 분석기법을 활용하여 설명력 높은 모델을 만드는 데 도움이 되게끔 차원을 축소할 수도 있다. [참고] 차원 축소를 목표로 하여 개발된 분석 기법 1. 주성분 분석 2. 요인 분석 3. 판별 분석 4. 군집 분석 5. 정준 상관 분석 6. 다차원 척도법 차원 축소를 위한 접근 방법 차원 축소 알고리즘을 이해하기 위해서는 투영과 매니폴드 학습 두가지 접근법을 이해해야 한다. 1. 투영 2. 매니폴드 주성분 분석 (PCA, Principal Component Analysis) - 가장 보편적인 차원 축소 알고리즘 중 하나. - 데이터의 분포..

AIB_123_복습정리 : ANOVA, CLT, CI

ANOVA (분산 분석) : 2개 이상 다수의 집단을 서로 비교하고자 할 때 F-분포를 이용하여 가설검정을 하는 방법 예를 들어서 집단이 가, 나, 다 3개가 있을 때 서로 비교한다고 하자. ㄴ 기존에 배웠던 t-test를 통해 한번씩 해보면 되지 않나? 가vs나, 나vs다, 다vs가 ㄴ 이론상으로는 가능. 그러나 여러개를 하나하나씩 비교하면 집단 수가 늘어 날수록 에러도 커진다. (왜냐하면, m개 그룹에 대한 가설 검정이라면 아래라는 것이, 수학적으로 증명이 되어있다고한다. 왜??) ㄴ 이렇기 때문에 여러개의 집단을 한꺼번에 비교하는 방법이 필요하다. 큰 수의 법칙 시행횟수를 무한히 늘려가면, 통계적 확률이 수학적 확률에 가까워진다. 예시 동전 던지기를 생각해보자. ㄴ 사건 A: 동전을 던져서 앞면이 ..