TA的每日心情 | 怒 2019-11-20 15:22 |
---|
签到天数: 2 天 [LV.1]初来乍到
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
基于分治排序策略的流量二次特征选择 ! o) z5 Z8 y+ S! ]' k
摘―要:网络业务流量的多样化高速化发展给流量识别技术带来了极大挑战,特征选择作为对数据降维处理的有效方法,具有重要的研究意义.本文描述了流量二次特征选择模型,并以此为基础提出了流量二次特征选择算法.算法将流量数据分为若干数据子集进行分治处理,对各数据子集提取出的特征进行汇总,以提出的影响度这一指标作为特征评估排序的依据,进行二次特征提取.实验表明,提出的算法在模型构建上性能更加优越,并且可以选取更少的特征实现对流量更准确的识别.
s4 b2 q" F! q2 Q5 B4 X关键词:二次特征提取;分治;排序;影响度;流量识别1 L: ~" V" V! g$ P' w3 d% V
- [2 G5 d$ Y6 G6 Q5 ~0 i! n3 c
7 P, F* i6 y8 y& M1 @. ^+ \( O; I& {) m7 ?
1引言
* S$ }/ ^0 o, S" g" I, ?3 k! w+ p网络流量识别是认识、管理、优化各种网络资源的基础和重要依据,对网络的管理、安全分析以及趋势预测都起着非常重要的作用”.网络数据量的爆炸式增长,对网络流量识别的实时性和系统资源利用的合理性提出了更高的要求和挑战.当前,通过采集流量的外部特征属性并应用机器学习算法进行分类是最常用的流量识别方法[2~4].特征选择作为流量识别的预处理过程[5],是对海量数据进行降维的有效预处理方法.特征选择不仅能够降低流量识别模型的复杂度[6],而且能够节约系统资源,提高对流量的识别准确率.这是由于冗余特征的存在会降低流量识别算法的效率,而不相关特征的存在会有损算法的性能”.因此,特征选择能够降低识别算法计算代价的同时,也能生成更易理解的结果,构建更紧凑泛化能力更强的模型.
/ Y# w! t: @. d0 d @; _1 k9 _传统特征选择方法主要有过滤特征选择算法和封装特征选择算法[89],在此基础上近些年又有了更加广泛和深入的研究.文献[ 10]结合流量矩阵和网络结构嫡定义了多个参数描述节点间连接行为和数据传输特征,并利用多个周期和时间尺度下的嫡指数分析不同流量特征.文献[11]基于文化基因框架,结合了封装和. ?& q1 Q0 k6 v) H0 J- j
3 m1 H# w3 j) \
6 Y: ^1 Z* x, ?2 x9 `6 O) r
, e* |3 p' n+ K9 l2 C, Y: a& U$ O3 c: b) w5 k4 l- i- n
|
|