找回密码
 注册
关于网站域名变更的通知
查看: 513|回复: 1
打印 上一主题 下一主题

[毕业设计] 基于主动学习和否定选择的垃圾邮件分类算法

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-3-29 09:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x

! T# x2 @; R/ J4 F摘要:针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.
0 g* k# I$ u& g9 F% {; b/ R$ w0 x* g( g! J8 N* S
关键词:文本分类;垃圾邮件检测;主动学习;否定选择;双向用户兴趣集6 K# |" u- G6 }8 w# `* W4 u

4 e& J# o3 P; V& ^
; m4 G* W: \# r8 P$ G        随着互联网的发展,邮件、微信﹑QQ等网络通信设施已成为人们平时交流的必备方式.而种类繁多的垃圾邮件和信息却时时困扰用户,如何高效检测出这些垃圾信息成为研究热点.目前垃圾邮件识别的研究现状是1)由于专家标注的经济代价太大,且无法对大规模问题进行有效标注,无标记样本数据数量巨大且容易获取;(2)现有解决方法中的传统机器学习算法,尤其是有监督学习算法,必须大量标记样本数据,否则泛化性能较低;( 3)对于垃圾邮件过滤问题,用户的个人喜好对分类结果影响较大;(4)在线进行人工样本标注时,专家无法直接选择最佳标注时机.在这种情况下,主动学习(Active Learning ,AL)方法成为解决上述问题的主流技术.( B! d+ ?/ I2 I0 L$ Q) U
, c" {* \  L$ m+ h3 Q% t( X
6 ~; G& i9 z6 L8 \; F
基于主动学习和否定选择的垃圾邮件分类算法.pdf (4.35 MB, 下载次数: 0) 8 u+ p( K3 ]  b

2 c. @" ]& ?! w$ N# Y
: H- o& |' U& E/ @' d8 n
. \0 y, n  c: g# \! I
  • TA的每日心情
    开心
    2023-1-3 15:10
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2021-3-29 10:43 | 只看该作者
    现在大多都是微信了
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-7-23 07:52 , Processed in 0.140625 second(s), 27 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表