|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
: k$ l& }/ u. W9 \. F摘要:采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5,KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall F-value、AUC等指标上优于文献中的过采样算法.
. z: k0 R3 s; \1 F4 c% `/ @8 y6 c+ d+ z$ N' C6 P- O4 j
关键词:三支决策;邻域粗糙集;边界采样;不平衡数据;SMOTE% y: O, J) _( v* X0 ?9 z8 u( g
6 k5 a6 \/ C- `( D; S, G! @
8 w% P* c, r t/ b0 u G
不平衡数据集的分类问题是机器学习和模式识别领域中的一个热点问题,迄今为止,针对此问题的解决方法主要分为两大类:一类是数据预处理方法,目的是降低类别之间的不平衡性,在此层面上主要的方法是重采样,增加小类样本的数目(过采样)或减少大类样本的数目(欠采样);另一类则是在分类算法上着手,提出新的有效的分类算法或改进现有的分类算法以适应对不平衡数据分类的目的,主要包括单类学习集成学习.代价敏感学习等方法.但是它们没有改变类别之间的不平衡性,限制了算法的广泛应用.所以在实际应用场景中,采用更多的是数据采样的方法.
% b4 m0 V3 e+ j1 N' |8 b$ |: I! M l3 Y7 m: u
) ?2 [! F3 m d+ T
: o, x9 j2 ?1 T
基于三支决策的不平衡数据过采样方法.pdf
(731.58 KB, 下载次数: 0)
* i! S& b% C7 j" {! T$ ^+ ~; |3 a0 p
# ~! y( C, D0 \
, P) D+ }% e9 N
|
|