|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
7 x# f% \/ y- ^, D# K! s% M7 K' u在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。9 |+ a+ K- Z6 ~. g7 M0 `
0 q7 u" j- }& T
互信息
f% n1 p4 l3 L+ a [& i3 j& k7 E, e2 h7 Y$ u, s
3 q/ R' t# ]- v& B
互信息可以度量两个变量x,y之间的相关关系。如下图所示:& G$ F! e6 a! I7 n4 F0 M
0 X- f8 @( E8 Z7 {/ F, Q4 p
5 f5 Q( k7 Q, @3 d) S) S+ c
& X9 N2 S9 c q. d: S6 ]/ I考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
/ F% N4 \1 M% ?% K
R+ i- g) k1 z3 E5 Z! b最大相关度与最小冗余度
% I4 W) ~) A( T) e. ?- K: e& _% [; S2 h
设S表示特征{xi}的集合,|S|=m. 为了选出m个最相关特征,使得S满足如下公式:
' W" E; o& A X/ b W
/ t5 M. _9 D" e) r0 h0 S
, K# G: p+ P/ y: i
& V m& k+ i* v4 L, @可见目标是选出m个平均互信息最大的集合S。- o0 `% ?- d2 n6 X/ A' C8 f9 p
S很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:7 k2 }) a2 k" b5 H3 s& l
* H3 d8 q" j3 h' y& k# M1 W& ~9 G
% k( k% n$ u+ H1 ?4 ?: B
$ `1 M# M4 P# o! ^! n. E最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:# [1 h- g9 V- ^( g: T' D4 W" E
2 k/ K, m1 N A$ O% B
, L: q% R* `8 z4 z
# G0 {5 z* }- s; y( e- U& }直观上说D的增大,R的减小都会使得目标函数增大。) e3 v- T q+ Z1 J9 ^
假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征。
5 i, D: H6 s; Z/ O1 L
# a5 C7 s5 K9 u3 k! T- P3 U }: ^4 S# L8 \# A/ Q1 L
4 S; u8 ?- }" @ y' ~
特征选择过程# b) A3 J# s$ |9 D- x
4 `/ m9 c( H. K% N' T, [* ^5 V
特征选择的目的是选择出一个具有很好分类效果的精简特征集。为了达到此目的,可以分两步进行:第一步,利用mrmr选出候选特征集;第二步,利用其它方法选出精简特征集。4 i" }* O$ S4 N( j% c$ c/ I1 F( \ [
) R4 K" p9 t$ J2 B! o8 V$ B
% z4 X8 `6 |# n$ k2 R主要步骤: N) ]& H- A) s8 Z! X" F7 k
+ [$ S+ [& _" h8 ?- 将数据进行处理转换的过程(注:为了计算两个特征的联合分布和边缘分布,需要将数据归一化到[0,255]之间,并且将每一维特征使用合理的数据结构进行存储)
- 计算特征之间、特征与响应变量之间的分布及互信息
- 对特征进行mrmr得分,并进行排序
6 K. k+ o/ f }- s
+ x) r/ ]: J" n2 v' ^. w3 U$ P |
|