[논문 리뷰] A modified error function for imbalanced dataset classification problem

Abstract

- Learning의 목적: error rate의 최소화

- 본 연구에서 제안하는 것: imbalanced dataset에 대해 적절한 error rate를 계산하도록 하는 수정된 cost function

- Imbalanced dataset의 특징: majority class/minority class 간의 instance 수 차이 존재

- 따라서 이 데이터셋을 학습하는 과정에서 두 class에 속하는 인스턴스 전체를 동일한 weight로 학습하게 되면 정확하지 않은 classification boundary가 생길 수 있음

Cf. 트레이닝 데이터 내에 major class 데이터가 많은 경우 (imbalanced data의 경우) 모든 예측을major class 로 분류하여도 높은 성능을 나타내는 것을 확인할 수 있음 -> 부정확한 classification 야기

- 본 연구의 목적: Overlap ratio, class distribution ratio를 기반으로 MSE cost function 을 향상시키는 적절한 파라미터(가중치)를 탐색하는 것

Introduction

- Imbalanced dataset은 편향된 분류 모델 학습을 야기함

- 그러나 실생활의 많은 데이터들이 imbalanced data임

Cf. 질병-정상형질 데이터 ./ 텍스트 인식 분류 / 위성 이미지 (?) 등

- imbalanced data set 문제를 해결하는 두 가지 방향성

: 공통적으로 minor class recognition 향상 / bias segmentation 방지를 목적으로 함

(1) 데이터

다양한 방법론을 통해 imbalanced ratio를 줄이고자 함

- over sampling

- under sampling

- combination (?)

(2) 알고리즘

존재하는 분류 알고리즘을 imbalanced data 를 처리하기 적합하도록 수정하고자 함

- SVM

- neural network

- K-nearest neighbor

- create new suitable algorithms

본 연구에서는

- Algorithmic level에서의 접근: minority class로의 분류를 보다 잘 하게 하는 것을 목적으로 함

Methodologies

(1) Two-class classification with imbalanced dataset

Cf. minority class / majority class 각각이 10개 – 990개 있는 데이터셋이 있다고 할 때

- 분류기는 majoricy class로 편향된 결과물을 내도록 학습되기 쉽다.

- 데이터셋 전체가 majority 로 분류된다 하더라도 99% accuracy를 보일 수 있음

Classification 문제에서 imbalanced dataset에 대해 고려할 법 한 특징

a. class distribution or imbalanced ratio

b. Lack of data

c. concept complexity or overlap ratio between class

Classification 문제에서 대부분 accuracy 를 최적화 하는 방향으로 training을 수행하므로, imbalanced dataset에 대해 좋은 성능을 내기 어렵다. Majority 예측은 잘 수행하나. Minority 에 대해서는 그렇지 못함

(2) Imbalanced ratio

Imbalanced ratio (IR) = #of majority class / #of minority class

(3) Measure of overlap of individual feature values

F1 (Fishers Discriminant Ratio) = overlap measuring tools

Small F1 = high overlap

모든 특성 차원에서의 F1을 구하고, 그 중 maximum인 값을 활용

각 feature에 대해 Measure f 는 다음과 같이 계산됨:

Mu / squared sigma : 두 클래스의 평균과 분산

Proposed method

- 전통적인 cost function (MSE) 을 수정하는 방식을 제안

- desired output과 예측결과가 다른 점 및 degree of class distribution and overlap ratio between classes 를 고려함

다음과 같은 세 단계로 이루어져 있음

Step1: Measuring the degree of class distribution and overlap ratio

- feature normalization [0..1]

- IR (imbalanced ratio)의 계산

- F1 의 계산 (evaluate the degree of overlapping between two classes)

Feature 수 만큼의. F1 을 얻을 수 있음

-> maximum F1 values: overlapping ratio로 선택됨 (larger value smaller overlap)

Step2: Defining the weight of majority class

- Step1애서 계산된 특성 (IR, maxF1) 을 majority class weight를 계산하는 데 활용

- IR, maxF1의 특성 확인하기 위한 실험 -> effect of the classification performance

Classification performance with different IR / maxF1

First case (a)

- IR 차이에 따른 분류기의 성능 (TP-rate/F-value/G-mean)

- IR 클 수록 성능 떨어짐 (more imbalanced)

Second case (b)

- maxF1 차이에 따른 분류기의 성능

- maxF1 작을 수록 성능 떨어짐 (high overlap)

-> imbalanced ratio and the maxF1 -> 분류문제 성능에 영향 줌

위 두 가지 값 (IR, maxF1)을 modified standard MSE 계산하는 과정에 weight 계산하는 데에 활용하고자 함

R_maj: weight for majority class

R_min: weight for minority class

본 연구에서 제안하는 방식:

Learning 과정에서 imbalanced data의 Majority class의 효과를 확인함

따라서 majority class에 대해서만 weight 업데이트를 수행하기로 함

R_min 값은 항상 1로 주고

R_maj 값은 테이블 1.

/*아니 아래와 같은 테이블을 어떻게 만들었는지.systemic 한 방법론을 제시하는 게 아니였어 ? 최소한 어떻게 저런 수치를 정하게 됐는지는 알려줘야지 !! */

Step3: Training and testing

데이터셋: 60% training / 40% test

알고리즘: Back-propagation neural network as a learning algorithm

Output node 에서 Error function: MSE 사용 (비교) / modified MSE (majority class에 weight<r_maj=[0..1], r_min=1> 부여한 방식)

Experiment and result

- 수정된 MSE 계산 방식이 기존 방식에 비해 minority 결과물 예측에서 좋은 성능을 보이는것을확인함

- 이 결과를 바탕으로 제안되는 방법론이 majority 예측 성능은 해치지 않으면서 minority 예측성능은 향상시키는 것을 확인함

/*결과를 비교하기에 확실히 좋은 방식이라고 할 수는 없는 형태의 시각화 이지만 나은 성능을 보인다는 주장으로 정리하고 있음 */

Conclusion

- Majority class weight 주는 방식으로 minority 못 찾는 문제 해결

- 추후 연구 제안: class. 별로 다른 특성을 반영하는 것 추구

'Paper review' 카테고리의 다른 글

인간 참조 범유전체 발표 관련 기사 공유 (0)	2023.07.02
[ISMB2022] A context-aware deconfounding autoencode for robust prediction of personalized clinical drug response from cell line compound screening (0)	2022.07.20
DeepLGP: a novel deep learning method for prioritizing lncRNA target genes (0)	2021.11.14
Si-C is a method for inferring super-resolution intact genome structure from single-cell Hi-C data (0)	2021.08.29
In vitro Reconstitution of an ABA Signaling Pathway (0)	2021.08.07

Bioinformatics and Evolution

[논문 리뷰] A modified error function for imbalanced dataset classification problem

'Paper review' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] A modified error function for imbalanced dataset classification problem

'Paper review' 카테고리의 다른 글

'Paper review' Related Articles

티스토리툴바