找回密码
 注册
关于网站域名变更的通知
查看: 736|回复: 3
打印 上一主题 下一主题

最大相关最小冗余(mRMR)算法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-7-13 13:54 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
9 \1 _6 N% R. S1 h  j: p6 B4 E
在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。
+ l4 l6 Y8 w. b# E1 c
& v; b) [5 l2 a互信息
" W3 N4 D- H: j
& x4 @0 j) Q7 y- @4 a
# f' t: W8 [+ {& z/ |互信息可以度量两个变量x,y之间的相关关系。如下图所示:
3 f# [$ c. O& J! a0 h$ M6 Z7 n" ^' g3 `3 Q' U

3 m, p' C  M1 P8 d# h
2 G; ]$ j. G( o5 b* y0 L$ c: P2 y考虑特征x与分类目标c,计算I(x,c),I(x,c)的大小代表了x与c之间的关联度的大小。从所有特征中选出与c之间互信息最大的m个特征,就可以得到与c最相关的m个特征。
; Q. D2 {9 r& B
, y  a) U% W, F最大相关度与最小冗余度$ L, \' y" a& x: j

+ d0 `5 R1 L: c* K  ~设S表示特征{xi}的集合,|S|=m. 为了选出m个最相关特征,使得S满足如下公式:
, `6 L+ m* v, J0 N4 O+ `& X# X. }$ h' Z3 E6 A9 O

$ J" |1 ~- ~4 C, s3 o$ x
! a2 ~. M  ~/ w9 P" Y7 p* l可见目标是选出m个平均互信息最大的集合S。% J/ |, h9 l7 Q( k  d. {# L& ]% B
S很可能包含相关度很大的特征,也就是说特征之间存在冗余。集合S的冗余度如下式所示:
2 Y% c9 l. Y/ b" _7 n# O  q. Y3 g

! i& T. _# v; M5 i
/ i8 Z' Q0 v/ _0 ]' R) i6 v最终目标是求出拥有最大相关度-最小冗余度的集合S,直接优化下式:
* ?  T$ Q) P* w3 A) R/ i: s5 L5 h$ [* ?4 i+ m0 M- Y5 z% }
, n+ G- p( M* K; U: D  C8 ~- E
. M7 J: M3 Z0 C2 [5 i# V  Z
直观上说D的增大,R的减小都会使得目标函数增大。' }' a) X+ R1 `. b) v
假设现在S中已有m-1个特征,现在需要从余下的特征中选择第m个特征。
7 y9 C* c, |7 k6 Y) U& k1 r& G$ f2 j9 \9 E9 T8 W6 H6 v

7 U  n5 @- s6 r9 U
9 ~* \. m5 D- P& g特征选择过程" L. w3 I  p& G5 I: U- C1 f" I
' S+ Z. `: B% D5 `1 E
特征选择的目的是选择出一个具有很好分类效果的精简特征集。为了达到此目的,可以分两步进行:第一步,利用mrmr选出候选特征集;第二步,利用其它方法选出精简特征集。! y. h3 V$ I( w) _" S) o: {# a7 p

7 H' h* Q8 ]/ w- D* H5 p/ m
" I' Q% x- V' v主要步骤:
* ~# \" |9 i/ _* U4 C2 R
/ f9 [7 ^1 j! s5 j6 p: n( V7 ~" l
  • 将数据进行处理转换的过程(注:为了计算两个特征的联合分布和边缘分布,需要将数据归一化到[0,255]之间,并且将每一维特征使用合理的数据结构进行存储)
  • 计算特征之间、特征与响应变量之间的分布及互信息
  • 对特征进行mrmr得分,并进行排序
    " [8 |/ |1 |2 B' u
+ C+ j8 e+ q! Z' o8 z/ U

该用户从未签到

2#
发表于 2021-7-13 15:18 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

3#
发表于 2021-7-13 15:19 | 只看该作者
最大相关最小冗余(mRMR)算法

该用户从未签到

4#
发表于 2021-7-13 15:20 | 只看该作者
最大相关最小冗余(mRMR)算法
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-7-18 17:28 , Processed in 0.109375 second(s), 26 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表