불균형 클래스 (class imbalance) 불균형 클래스는 머신러닝의 분류 문제에서 발생하는 문제이다. 데이터를 보면 보통 target의 클래스 비중이 차이가 많이 나는 경우가 많다. (사기 탐지, 폐기 예측, 의료 진단, 이메일 분류 등) 대부분의 머신러닝 알고리즘은 데이터가 클래스 내에 고르게 분포되어 있다고 가정한다. 그렇기 때문에 알고리즘은 다수 클래스를 예측하는 데 더 편향된다는 것이다. 알고리즘에는 소수 클래스에 있는 패턴을 학습하기에 충분한 정보가 없다. 클래스 빈도 차이는 모델의 전반적인 예측 가능성에 영향을 미친다. 쉽게 이해하기 위한 예를 들어보면, 내가 고향에서 오랫동안 살다가 최근에 새로운 도시로 이사했고 이사한지 한달정도 되었다고 생각해보자. 고향 동네에 대해서는 어린 시절부터..