Abstract
- Learning의 목적: error rate의 최소화
- 본 연구에서 제안하는 것: imbalanced dataset에 대해 적절한 error rate를 계산하도록 하는 수정된 cost function
- Imbalanced dataset의 특징: majority class/minority class 간의 instance 수 차이 존재
- 따라서 이 데이터셋을 학습하는 과정에서 두 class에 속하는 인스턴스 전체를 동일한 weight로 학습하게 되면 정확하지 않은 classification boundary가 생길 수 있음
Cf. 트레이닝 데이터 내에 major class 데이터가 많은 경우 (imbalanced data의 경우) 모든 예측을major class 로 분류하여도 높은 성능을 나타내는 것을 확인할 수 있음 -> 부정확한 classification 야기
- 본 연구의 목적: Overlap ratio, class distribution ratio를 기반으로 MSE cost function 을 향상시키는 적절한 파라미터(가중치)를 탐색하는 것
Introduction
- Imbalanced dataset은 편향된 분류 모델 학습을 야기함
- 그러나 실생활의 많은 데이터들이 imbalanced data임
Cf. 질병-정상형질 데이터 ./ 텍스트 인식 분류 / 위성 이미지 (?) 등
- imbalanced data set 문제를 해결하는 두 가지 방향성
: 공통적으로 minor class recognition 향상 / bias segmentation 방지를 목적으로 함
(1) 데이터
다양한 방법론을 통해 imbalanced ratio를 줄이고자 함
- over sampling
- under sampling
- combination (?)
(2) 알고리즘
존재하는 분류 알고리즘을 imbalanced data 를 처리하기 적합하도록 수정하고자 함
- SVM
- neural network
- K-nearest neighbor
- create new suitable algorithms
본 연구에서는
- Algorithmic level에서의 접근: minority class로의 분류를 보다 잘 하게 하는 것을 목적으로 함
Methodologies
(1) Two-class classification with imbalanced dataset
Cf. minority class / majority class 각각이 10개 – 990개 있는 데이터셋이 있다고 할 때
- 분류기는 majoricy class로 편향된 결과물을 내도록 학습되기 쉽다.
- 데이터셋 전체가 majority 로 분류된다 하더라도 99% accuracy를 보일 수 있음
Classification 문제에서 imbalanced dataset에 대해 고려할 법 한 특징
a. class distribution or imbalanced ratio
b. Lack of data
c. concept complexity or overlap ratio between class
Classification 문제에서 대부분 accuracy 를 최적화 하는 방향으로 training을 수행하므로, imbalanced dataset에 대해 좋은 성능을 내기 어렵다. Majority 예측은 잘 수행하나. Minority 에 대해서는 그렇지 못함
(2) Imbalanced ratio
Imbalanced ratio (IR) = #of majority class / #of minority class
(3) Measure of overlap of individual feature values
F1 (Fishers Discriminant Ratio) = overlap measuring tools
Small F1 = high overlap
모든 특성 차원에서의 F1을 구하고, 그 중 maximum인 값을 활용
각 feature에 대해 Measure f 는 다음과 같이 계산됨:
Mu / squared sigma : 두 클래스의 평균과 분산
Proposed method
- 전통적인 cost function (MSE) 을 수정하는 방식을 제안
- desired output과 예측결과가 다른 점 및 degree of class distribution and overlap ratio between classes 를 고려함
다음과 같은 세 단계로 이루어져 있음
Step1: Measuring the degree of class distribution and overlap ratio
- feature normalization [0..1]
- IR (imbalanced ratio)의 계산
- F1 의 계산 (evaluate the degree of overlapping between two classes)
Feature 수 만큼의. F1 을 얻을 수 있음
-> maximum F1 values: overlapping ratio로 선택됨 (larger value smaller overlap)
Step2: Defining the weight of majority class
- Step1애서 계산된 특성 (IR, maxF1) 을 majority class weight를 계산하는 데 활용
- IR, maxF1의 특성 확인하기 위한 실험 -> effect of the classification performance
Classification performance with different IR / maxF1
First case (a)
- IR 차이에 따른 분류기의 성능 (TP-rate/F-value/G-mean)
- IR 클 수록 성능 떨어짐 (more imbalanced)
Second case (b)
- maxF1 차이에 따른 분류기의 성능
- maxF1 작을 수록 성능 떨어짐 (high overlap)
-> imbalanced ratio and the maxF1 -> 분류문제 성능에 영향 줌
위 두 가지 값 (IR, maxF1)을 modified standard MSE 계산하는 과정에 weight 계산하는 데에 활용하고자 함
R_maj: weight for majority class
R_min: weight for minority class
본 연구에서 제안하는 방식:
Learning 과정에서 imbalanced data의 Majority class의 효과를 확인함
따라서 majority class에 대해서만 weight 업데이트를 수행하기로 함
R_min 값은 항상 1로 주고
R_maj 값은 테이블 1.
/*아니 아래와 같은 테이블을 어떻게 만들었는지.systemic 한 방법론을 제시하는 게 아니였어 ? 최소한 어떻게 저런 수치를 정하게 됐는지는 알려줘야지 !! */
Step3: Training and testing
데이터셋: 60% training / 40% test
알고리즘: Back-propagation neural network as a learning algorithm
Output node 에서 Error function: MSE 사용 (비교) / modified MSE (majority class에 weight<r_maj=[0..1], r_min=1> 부여한 방식)
Experiment and result
- 수정된 MSE 계산 방식이 기존 방식에 비해 minority 결과물 예측에서 좋은 성능을 보이는것을확인함
- 이 결과를 바탕으로 제안되는 방법론이 majority 예측 성능은 해치지 않으면서 minority 예측성능은 향상시키는 것을 확인함
/*결과를 비교하기에 확실히 좋은 방식이라고 할 수는 없는 형태의 시각화 이지만 나은 성능을 보인다는 주장으로 정리하고 있음 */
Conclusion
- Majority class weight 주는 방식으로 minority 못 찾는 문제 해결
- 추후 연구 제안: class. 별로 다른 특성을 반영하는 것 추구