|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
摘 要:在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义! Q# v( W# X: C" x! ]
性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感/ X/ v6 C$ w$ g
哈希(E2LSH)和显著图加权的目标分类方法。首先,引入 E2LSH 算法对训练图像集的特征点聚类生成一组视觉词
' @* V; M3 D- F& V* \( H典,并提出一种弱监督策略对 E2LSH 中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然 Z5 N! ?2 X# _5 i7 ~1 r
后,利用 GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显
8 m& P* V) O8 c ?著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集 Caltech-256 和 Pascal VOC
6 f8 y g+ D! x5 b9 ^; W2007 上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优
3 y e; g! G0 |' |% R, ~7 j于当前主流方法。
. B" c, d: T# V6 @关键词:目标分类;视觉词典模型;精确位置敏感哈希;视觉显著图;视觉语言模型$ K R; }7 L( X5 v0 J
1 引言 K1 D& w3 d) E$ w% e9 L: x
视觉词典模型(Bag of Visual Words Model, 5 ~* s9 M2 S0 |4 O! b: Q2 C. R
BoVWM)[1 4]的出现迈出了由图像底层特征向高层
8 h; m$ d0 z) ^3 N* ~( ~视觉语义过渡的第 1 步。由于其性能优越,在图像- S9 Q% Q P, H' N
' y# C. }) D r8 a" N6 \* `& n分类[5]等领域的应用十分广泛,然而,以下几个关键2 i d9 `: V6 z! e. f" T
问题的存在却极大地限制了其性能。首先是词典生
' _3 ~8 k+ n- Q1 z8 x成效率低,当前主要的词典生成算法(如 K-Means[1])
: e4 \3 ^4 n$ Q6 P. y' E在对特征点[6]聚类时都需要多次迭代高维近似近邻
, B7 \$ u1 } l; h2 r; s$ ^计算,随着数据量的增大时间效率会急剧下降。其
) A6 [2 r! G9 l# y/ v: n2 y) _次是传统聚类算法的初始聚类中心大都是随机生成+ C8 [6 H7 J* T
的,导致聚类结果对噪声的鲁棒性较差且容易引起% ?9 I2 j& t* g9 D9 {
视觉单词同义性和歧义性问题[7]。此外,传统的视觉3 } W5 v6 f6 R7 [# b: ^7 K
词典模型都面临视觉单词空间信息缺失的问题,极, [% j; |# p, I8 M* G
大地降低了该模型的语义表达能力。4 Q5 p" h# y. C, x+ |; H k: `$ A
, T- Y* p4 U* G4 L, `# T3 p. M
! k- h7 _; A) J* @; w1 R( j
8 T& j' a# i) b9 n U( Q/ {2 x |: {8 }; F
# h% a7 Z2 w( a8 F9 c9 g
附件下载:
, K7 }' `: z% g( E; Z+ A2 j# h) Q. m+ ^$ Z, H
|
|