【技术实现步骤摘要】
基于逻辑回归的增强模型的恶意加密流量检测方法
本专利技术属于网络空间安全
,涉及一种恶意加密流量检测方法,特别涉及一种基于逻辑回归的增强模型的恶意加密流量检测方法,可用于真实环境流量非平衡条件下恶意加密流量的检测。
技术介绍
网络环境中恶意攻击频发,导致用户隐私被侵害,造成大量财产损失。恶意攻击往往伴随着恶意流量的产生,通过检测网络中的恶意流量可以及时发现网络中存在的恶意攻击,并采取相应的防御措施。现有的主要检测技术为:1)基于规则的深度包检测技术与内容识别技术;2)采用机器学习方法构建检测模型。随着流量加密技术的不断发展,恶意攻击利用加密技术隐藏了恶意活动流量的明显特征。但深度包检测技术需要先解密流量,对用户隐私有一定的侵犯性,且大大增加了检测的处理时间和难度。目前使用机器学习技术进行恶意加密流量检测在检测的查准率与查全率上更具优势,主要包括三个阶段:1)加密流量采集与预处理;2)特征提取和3)分类器构建。在加密流量采集与预处理阶段,需要捕捉具有权威性的恶意样本的活动进行恶意加密流量的收集。在特征提取阶段,将具有代表性的特征通过特征提取技术从处理后的流量中提取出来。在分类器构建阶段,将特征提取阶段提取的具有代表性的特征输入到分类器中进行训练得到分类模型。目前常用的分类器算法主要包括逻辑回归和支持向量机等。使用分类模型对网络中的流量进行分类,分类结果为恶意的流量即为检测得到的恶意加密流量。但使用机器学习技术进行恶意加密流量检测在处理非平衡数据上有其不足之处。从训练模型的角度来说,如果某类的样本数量很少,即使分错了这些极少数正类,但由于所带来的损失较小 ...
【技术保护点】
1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:(1)获取训练样本集S'和测试样本集X':(1a)获取训练样本集S':(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,... ...
【技术特征摘要】
1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:(1)获取训练样本集S'和测试样本集X':(1a)获取训练样本集S':(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;(1b)获取测试样本集X':将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;(2)构建基于逻辑回归的分类器集合H(x):(2a)构建包括T个逻辑回归分类器的分类器集合H(x):H(x)={h1(x),h2(x),...,ht(x),...,hT(x)}(1)其中,ht(x)表示第t个逻辑回归分类器,T≥2;(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数lt(θt)进行优化:定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为lt(θt)进行优化,得到ht(x)优化后的极大似然函数其中,lt(θt)和的表达式分别为:其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数;(3)对基于逻辑回归的分类器集合H(x)进行训练:(3a)初始化t=1,(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数的值η(θ't):(3c)计算η(θ't)为最小值时的参数向量θ't的值,并将θ't的值作为代价敏感分类器h't(x)的参数,得到代价敏感分类器h't(x);(3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ'tT表示θ't的转置;(3e)采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,然后根据εt取值确定h't(x)参与最终决策的权重αt:其中,TPRt表示h't(x)识别出的正样本占所有真实正样本的比例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;(3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α1,α2,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中,表示求和函数,sign(·)表示符号函数;(3g)令t=t+1,对ωt进行更新,并执行步骤(3b),其中,表示第t-1个逻辑回归分类器的代价调整系数,FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本但实际是正样本的样本数,N表示正样本数,Zt-1...
【专利技术属性】
技术研发人员:杨超,强薇,苏锐丹,郑昱,张晓雨,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。