코드스테이츠 AI 부트캠프/Section 2 6

AIB_234_복습정리 : PDP, SHAP

Model-Agnostic Methods : 모델에 구속받지 않는 해석 방법 학습에 사용된 모델이 무엇인지에 구애받지 않고 독립적으로 모델을 해석할 수 있다. 어떤 모델을 사용했더라도 동일한 방식으로 해석할 수 있다. 비슷한 성능을 가지는 여러 모델들 중에서 하나를 선택해야 하는데, 이 모델을이 다 다르더라도 동일한 기준으로 해석하기 때문에 비교가 가능하므로 객관적으로 더 나은 모델을 선택할 수 있게 된다. [참고자료] https://towardsdatascience.com/three-model-explanability-methods-every-data-scientist-should-know-c332bdfd8df Three Model Explanability Methods Every Data Scient..

AIB_231_복습정리 : 불균형 클래스

불균형 클래스 (class imbalance) 불균형 클래스는 머신러닝의 분류 문제에서 발생하는 문제이다. 데이터를 보면 보통 target의 클래스 비중이 차이가 많이 나는 경우가 많다. (사기 탐지, 폐기 예측, 의료 진단, 이메일 분류 등) 대부분의 머신러닝 알고리즘은 데이터가 클래스 내에 고르게 분포되어 있다고 가정한다. 그렇기 때문에 알고리즘은 다수 클래스를 예측하는 데 더 편향된다는 것이다. 알고리즘에는 소수 클래스에 있는 패턴을 학습하기에 충분한 정보가 없다. 클래스 빈도 차이는 모델의 전반적인 예측 가능성에 영향을 미친다. 쉽게 이해하기 위한 예를 들어보면, 내가 고향에서 오랫동안 살다가 최근에 새로운 도시로 이사했고 이사한지 한달정도 되었다고 생각해보자. 고향 동네에 대해서는 어린 시절부터..

AIB_212_복습정리 : Multiple Linear Regression / Bias-Variance Trade off

단순 선형회귀 모델 : 특성이 하나뿐인 선형회귀 모델 ▶ 2차원 직선 다중 선형회귀 모델 : 특성이 여러개인 선형회귀 모델 (하나의 특성만으로된 모델로는 데이터들을 설명할 수 없는 경우) ▶ 특성의 갯수만큼 차원이 늘어남. • 다중선형회귀 모델은 여러개의 독립변수와 한개의 종속변수와의 관계(독립변수들이 종속변수에 미치는 영향 즉 인과관계를 분석)를 사용하여 예측하는 모델이다. • 사실상 특성이 3개 이상이 되어 4차원을 넘어서는 순간부터 직관적 이해가 불가능 • 분석 그래프의 차원이 증가하면 계산이 복잡해질뿐만아니라 '다중공선성', '과적합', 차원의저주' 등과 같은 문제가 발생하기도 한다. 이런 부수적인 문제들까지도 고려를 해야하는 모델이다. • 식 (2)에서 회귀계수는 단순회귀모형에서처럼 독립변수와 ..

AIB_211_복습정리 : Simple Linear Regression

Baseline Model (기준모델) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적인, 최소한의 성능을 나타내는 기준이 되는 모델, 여기서는 평균값을 기준으로 사용하여 '평균기준모델'이라고 말할 수 있다. feature의 갯수와는 상관이 없음. 기준모델은 일반적으로 문제에 따라 다음과 같이 설정한다. • 분류문제: 타겟의 최빈 클래스 • 회귀문제: 타겟의 평균값 • 시계열회귀문제: 이전 타임스탬프의 값 회귀 분석 단순 선형회귀분석이란 단일 독립변수에 대한 종속변수의 추이를 분석하는 것이다. 단순 선형회귀 모델 직선이므로 아래와 같은 식으로 표현할 수 있다. 이러한 형태의 식은 독립변수와 종속변수간의 관계를 설명해준다. • 독립변수 (Independent Variable, x): 예측(pr..

1