基于逻辑回归的增强模型的恶意加密流量检测方法技术

技术编号:22471223 阅读:43 留言:0更新日期:2019-11-06 12:58
本发明专利技术提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,用于在保证恶意加密流量检测查准率的前提下提高查全率。实现步骤为:获取训练样本集S'和测试样本集X';构建基于逻辑回归的分类器集合H(x);对基于逻辑回归的分类器集合H(x)进行训练;获取恶意加密流量的检测结果。本发明专利技术通过优化代价函数,采用多个代价敏感分类器迭代的增强模型区分出存在于加密网络流量中的恶意加密流量。用于解决现有技术中,由于异常加密流量数据远少于良性加密流量造成的,难以在保证查准率的前提下提升查全率的技术问题。

Detection method of malicious encrypted traffic based on enhanced model of logical regression

【技术实现步骤摘要】
基于逻辑回归的增强模型的恶意加密流量检测方法
本专利技术属于网络空间安全
,涉及一种恶意加密流量检测方法,特别涉及一种基于逻辑回归的增强模型的恶意加密流量检测方法,可用于真实环境流量非平衡条件下恶意加密流量的检测。
技术介绍
网络环境中恶意攻击频发,导致用户隐私被侵害,造成大量财产损失。恶意攻击往往伴随着恶意流量的产生,通过检测网络中的恶意流量可以及时发现网络中存在的恶意攻击,并采取相应的防御措施。现有的主要检测技术为:1)基于规则的深度包检测技术与内容识别技术;2)采用机器学习方法构建检测模型。随着流量加密技术的不断发展,恶意攻击利用加密技术隐藏了恶意活动流量的明显特征。但深度包检测技术需要先解密流量,对用户隐私有一定的侵犯性,且大大增加了检测的处理时间和难度。目前使用机器学习技术进行恶意加密流量检测在检测的查准率与查全率上更具优势,主要包括三个阶段:1)加密流量采集与预处理;2)特征提取和3)分类器构建。在加密流量采集与预处理阶段,需要捕捉具有权威性的恶意样本的活动进行恶意加密流量的收集。在特征提取阶段,将具有代表性的特征通过特征提取技术从处理后的流量中提取出来。在分类器构建阶段,将特征提取阶段提取的具有代表性的特征输入到分类器中进行训练得到分类模型。目前常用的分类器算法主要包括逻辑回归和支持向量机等。使用分类模型对网络中的流量进行分类,分类结果为恶意的流量即为检测得到的恶意加密流量。但使用机器学习技术进行恶意加密流量检测在处理非平衡数据上有其不足之处。从训练模型的角度来说,如果某类的样本数量很少,即使分错了这些极少数正类,但由于所带来的损失较小,当满足停机条件或者达到最大迭代次数之后,模型并没有学习到如何去判别出少数类。另一方面,模型在做出决策时希望能够遵循真实样本总体的样本分布。如果训练样本时不考虑样本的真实分布是不平衡的情况,导致少数类样本很容易被分类为多数类,降低分类的查全率。增强学习对多个分类器进行集成训练,可改进单分类器带来的查全率下降问题。增强模型的工作机制是从训练集用初始权重训练出弱学习器A,根据弱学习器A的学习误差率来更新训练样本的权重,使得之前弱学习器A中学习误差率高的训练样本点权重变高。然后这些误差率高的点在弱学习器B中得到更高的重视,利用调整权重后的训练集来训练弱学习器B。最终将这T个弱学习器通过集合策略进行整合,得到最终的增强学习器。2016年AIsec会议上,Anderson提出并于Proceedingsofthe2016ACMWorkshoponArtificialIntelligenceandSecurity的35页至46页发表论文“IdentifyingEncryptedMalwareTrafficwithContextualFlowData”,公开了利用机器学习技术从加密的网络流量中识别出具有恶意行为的网络流量的方法。在不解密数据的前提下,利用数据包头部字段数据结合上下文信息进行异常加密流量检测。对采集的流量分析TLS流、DNS流和HTTP流的不同之处,具体包括未加密的TLS握手信息、DNS响应信息、HTTP头部信息,然后从上述信息中提取特征,并进行归一化处理,随后采用逻辑回归算法训练模型。该方案与仅采用流量统计特征的方法相比,查准率得到进一步提升。但在保证查准率的前提下,查全率的提升效果并不理想。当采用人工调整的平衡数据集时,查准率得到提升但导致查全率的下降,当直接为恶意类设置较高代价时,查全率得到提升但导致查准率的下降。这是由于真实网络环境下的正常加密流量远多于异常加密流量,逻辑回归算法通常是偏向数量占优的类,即偏向将恶意流量判别为良性流量,甚至异常加密流量样本会被视为正常加密流量样本的异常点而被忽略。导致了由数据非平衡造成难以在保证查准率的前提下提升查全率的技术问题。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的不足,提出了一种基于逻辑回归的增强模型的恶意加密流量检测方法,用于解决现有技术中,由于异常加密流量数据远少于良性加密流量造成的,难以在保证查准率的前提下提升查全率的技术问题。为实现上述目的,本专利技术采取的技术方案包括如下步骤:(1)获取训练样本集S'和测试样本集X':(1a)获取训练样本集S':(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;(1a3)对每个流xi的进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;(1b)获取测试样本集X':将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;(2)构建基于逻辑回归的分类器集合H(x):(2a)构建包括T个逻辑回归分类器的分类器集合H(x):H(x)={h1(x),h2(x),...,ht(x),...,hT(x)}(1)其中,ht(x)表示第t个逻辑回归分类器,T≥2;(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数lt(θt)进行优化:定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为lt(θt)进行优化,得到ht(x)优化后的极大似然函数其中,lt(θt)和的表达式分别为:其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数;(3)对基于逻辑回归的分类器集合H(x)进行训练:(3a)初始化t=1,(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑本文档来自技高网
...

【技术保护点】
1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:(1)获取训练样本集S'和测试样本集X':(1a)获取训练样本集S':(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;(1b)获取测试样本集X':将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;(2)构建基于逻辑回归的分类器集合H(x):(2a)构建包括T个逻辑回归分类器的分类器集合H(x):H(x)={h1(x),h2(x),...,ht(x),...,hT(x)}   (1)其中,ht(x)表示第t个逻辑回归分类器,T≥2;(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数lt(θt)进行优化:定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为lt(θt)进行优化,得到ht(x)优化后的极大似然函数...

【技术特征摘要】
1.一种基于逻辑回归的增强模型的恶意加密流量检测方法,其特征在于,包括如下步骤:(1)获取训练样本集S'和测试样本集X':(1a)获取训练样本集S':(1a1)将在单位时间U内采集的沙箱环境中恶意代码运行所产生的流量作为恶意流量,采集的局域网用户正常网络活动所产生的流量作为良性流量,并将恶意流量和良性流量中包含有相同的源IP、目的IP、源端口和目的端口的TLS数据包、与TLS数据包具有相同IP的DNS数据包作为流单位,U≥5min;(1a2)流单位为单位对恶意流量和良性流量分别进行划分,得到M个恶意流和N个良性流,并选取其中的m个恶意流和n个良性流,组成流集合{x1,x2,...,xi,...,xm+n},其中,M≥2000,N≥60000,m≥200,n≥40000,xi表示第i个流;(1a3)对每个流xi进行标注,m+n个流的标签组成流单位标签集合{y1,y2,...,yi,...,ym+n},yi表示xi的标签,yi∈{0,1},0表示恶意加密流量,1表示良性加密流量;(1a4)提取每个流xi的W个协议头特征,并按照由大到小的顺序对W个协议头特征在x1,x2,...,xi,...,xm+n中的出现频率进行排序,将前G个协议头特征作为流量特征集X,X=[x'1,x'2,...,x'i,...,x'm+n],将X与m+n个流的标签y1,y2,...,yi,...,ym+n组成训练样本集S',S'={(x'1,y1),(x'2,y2),...,(x'i,yi),...,(x'm+n,ym+n)},其中,G>100,x'i表示从xi提取的维度为G的特征样本,yi表示x'i的标签;(1b)获取测试样本集X':将用户网络活动所产生的流量作为测试流量,并以步骤(1a1)所获取的流单位为单位将测试流量划分成d个流,对每个流提取步骤(1a4)所排序得到的前G个协议头特征作为测试样本集X',X'=[x”1,x”2,...,x”i,...,x”d],其中,x”i表示第i个含有G个协议头特征的特征样本;(2)构建基于逻辑回归的分类器集合H(x):(2a)构建包括T个逻辑回归分类器的分类器集合H(x):H(x)={h1(x),h2(x),...,ht(x),...,hT(x)}(1)其中,ht(x)表示第t个逻辑回归分类器,T≥2;(2b)对第t个逻辑回归分类器的ht(x)的极大似然函数lt(θt)进行优化:定义代价ωt=[w0t,w1t],其中,w0t表示ht(x)将实际属于0的特征样本分为1所造成的代价,w1t表示ht(x)将实际属于1的特征样本分为0所造成的代价,并通过ωt对ht(x)的极大似然函数为lt(θt)进行优化,得到ht(x)优化后的极大似然函数其中,lt(θt)和的表达式分别为:其中,θt表示M+1维的参数向量,θ't表示对θt优化后的参数向量,ht(x)表示x'i的预测值,log(·)表示对数函数,表示求和函数;(3)对基于逻辑回归的分类器集合H(x)进行训练:(3a)初始化t=1,(3b)将训练样本集S'与ωt=[w0t,w1t]作为基于逻辑回归的分类器集合H(x)中第t个逻辑回归分类器ht(x)的输入,计算ht(x)优化后的极大似然函数的值η(θ't):(3c)计算η(θ't)为最小值时的参数向量θ't的值,并将θ't的值作为代价敏感分类器h't(x)的参数,得到代价敏感分类器h't(x);(3d)通过θ't计算S'中第i个特征样本x'i的预测值ht'(x”i):其中,x”i表示x'i加上一个偏置项x'i0=1的M+1维特征向量,θ'tT表示θ't的转置;(3e)采用最大类间方差法确定h't(x)的阈值为λ't,并通过λ't计算代价敏感分类器h't(x)分类误差率εt,然后根据εt取值确定h't(x)参与最终决策的权重αt:其中,TPRt表示h't(x)识别出的正样本占所有真实正样本的比例,TNRt表示h't(x)识别出的负样本占所有真实负样本的比例;(3f)判断t=T是否成立,若是,将T个代价敏感分类器h'1(x),h'2(x),...,h't(x),...,h'T(x)和T个权重α1,α2,...,αt,...,αT进行组合,得到基于逻辑回归分类器的增强模型H'(x),否则,执行步骤(3g),其中,表示求和函数,sign(·)表示符号函数;(3g)令t=t+1,对ωt进行更新,并执行步骤(3b),其中,表示第t-1个逻辑回归分类器的代价调整系数,FNt-1表示使用第t-1个逻辑回归分类器被判定为负样本但实际是正样本的样本数,N表示正样本数,Zt-1...

【专利技术属性】
技术研发人员:杨超强薇苏锐丹郑昱张晓雨
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1