코드스테이츠 AI 부트캠프/Section 2

AIB_234_복습정리 : PDP, SHAP

yourhm 2021. 12. 4. 22:34

Model-Agnostic Methods

: 모델에 구속받지 않는 해석 방법

 

학습에 사용된 모델이 무엇인지에 구애받지 않고 독립적으로 모델을 해석할 수 있다.

어떤 모델을 사용했더라도 동일한 방식으로 해석할 수 있다.

비슷한 성능을 가지는 여러 모델들 중에서 하나를 선택해야 하는데, 이 모델을이 다 다르더라도 동일한 기준으로 해석하기 때문에 비교가 가능하므로 객관적으로 더 나은 모델을 선택할 수 있게 된다.

 

[참고자료]

https://towardsdatascience.com/three-model-explanability-methods-every-data-scientist-should-know-c332bdfd8df

 

Three Model Explanability Methods Every Data Scientist Should Know

Permutation importance and partial dependence plot new version of scikit-learn 0.22 supports (celebration🎉!) and SHAP as a bonus.

towardsdatascience.com

 

 

 

PDP (Partial Dependence Plots, 부분 의존도 그래프)

: 관심있는 피쳐들이 타겟에 어떻게 영향을 주는지 쉽게 파악 가능.

 

예를 들어 랜덤포레스트, 부스팅 모델에서 얻을 수 있는 Feature importances 는 어떤 피쳐들이 모델의 성능에 중요하다/안중요하다,  그 모델에 영향을 많이 준다/안준다 정도의 정보만을 제공한다. 피쳐의 값이 어떻게 변하는지에 따라 타겟의 값이 어떻게 변화하느냐 증가/감소하느냐와 같은 정보는 알 수 없다. PDP를 그리면 알 수 있다.

 

1) pdp_isolate, pdp_plot

2) pdp_interact, pdp_interact_plot : 2개의 피쳐간의 상호작용

 

 

 

SHAP Value

: 피쳐들의 기여도를 계산하기 위한 방법

 

1) Force Plot : 피쳐들의 영향력을 그래프로 표현

2) Summary Plot : feature importances와 feature effects 를 결합

 

 

 

[참고] Feature Importance 와 PDP, SHAP Value 특징 구분

서로 관련이 있는 모든 특성들에 대한 전역적인(Global) 설명

• Feature Importances

• Drop-Column Importances

• Permutaton Importances

 

타겟과 관련이 있는 개별 특성들에 대한 전역적인(Global) 설명

• Partial Dependence plots

 

개별 관측치에 대한 지역적인(local) 설명

• Shapley Values