TA的每日心情 | 衰 2019-11-19 15:32 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
$ Z9 I' \: w+ e8 e! F
基于历史分类加权和分级竞争采样的多视角主动学习 0 g# P! E1 n$ K
8 H0 K! C) q" b
摘要:多视角主动学习是一种相比于传统主动学习能够取得更大程度版本空间缩减的技术,已被应用于多种类型的大数据分析中.本文针对现有的多视角主动学习算法在分类假设生成和采样策略中存在的不足分别提出了相应的改进方案.本文将Boosting思想应用到多视角主动学习框架中,通过将历史上各次查询得到的分类假设进行加权式投票来实现每次查询后分类假设的强化;与此同时,还提出了一种自适应的分级竞争采样策略,当分类争议样本规模较大时通过无监督谱聚类获得上述样本的空间分布描述,并在各个聚类中结合样本的分类不确定度和冗余度信息通过二次规划求解以获得可靠的批处理采样.为了证明上述改进的有效性,本文将多视角主动学习应用到图像分类领域中,并通过基于不同图像特征的视角来分别生成相应的分类假设.实验表明,本文提出的两点改进策略不仅均有助于提升多视角主动学习的性能,而且基于上述不同视角随机组合的多视角主动学习方法相比于经典的单视角主动学习算法能够更快地实现收敛并达到较高的场景分类准确性.+ R1 ]2 q# y+ X) h6 |% L
关键词:多视角主动学习;分类器集成强化;分级竞争采样;图像分类
* O6 l+ s3 Z+ R s3 ^/ u2 j8 Q, ^3 A) X, |% |! Z
( @, K9 @- T$ S* _% ]" X
1引言
+ k$ a$ i, Z# d: e, s3 E5 t主动学习理论最早由Simon"提出,是一种能够从大量的未标记样本中挑选出一部分具有较高信息量且对分类器性能提升有帮助的样本进行人工标记的技术,它改变了传统只对已标记样本进行被动学习的形式,能够有效降低特征空间中的样本复杂度.根据PAC学习理论,在理想情况下为了获取期望分类误差小于&的分类器,主动学习的样本复杂度为O( log( 1/ e)),相比传统被动学习的样本复杂度O( 1/g)可以获得指数形式地减少,因而尤其适合于大数据的分析.主动学习理论在近十几年里得到了不断完善和发展,并于近些年已开始在图像检索、人脸识别、行为分析,目标跟踪和场景重建等诸多领域体现出广阔的应用潜力.5 W J* I9 |" v0 o4 G8 K
2相关研究5 Q `. c4 q- B
选择性采样( Selective Sampling)是主动学习算法的关键.根据采样方式的不同,主动学习方法大致可分为以下两大类:基于“池”的方法和基于“流”的方法[2.3].基于“流”的方法由于不能对未标注样本进行逐一比较,需要根据样本的评价指标人工设定相应的阈值,因而限制了其应用和发展.基于“池”的方法则是目
+ G& d4 t h) m( ]* I. }, r; _, Q! e, X) A7 h# s
' _/ d0 m1 Q/ K9 O% d+ c1 o% V
2 a2 L1 P, f% }0 ~( z0 q- i# h. M; h7 B
|
|