当前位置: 首页 > 专利查询>广州大学专利>正文

基于集成学习的恶意软件加密流量检测方法技术

技术编号:31023959 阅读:34 留言:0更新日期:2021-11-30 03:20
本发明专利技术公开了一种基于集成学习的恶意软件加密流量检测方法,方法包括下述步骤:收集加密流量样本集,所述加密流量样本集包括多个异构特征;基于加密流量样本集的多个异构特征,构建相应的多个特征分类器;基于所述多个特征分类器构建恶意软件加密流量检测模型,所述恶意软件加密流量检测模型利用多个特征分类器的多数投票来判断主机是否感染恶意软件。本发明专利技术可解决现有恶意软件流量检测系统检出率低,误报率高的问题,相对于深度报文检测DPI技术,本发明专利技术不需要对加密数据包进行解密,只需根据数据包的可观察特征就能适用于恶意加密流量的检测,并且具有高检出率,低误报率的特性。特性。特性。

【技术实现步骤摘要】
基于集成学习的恶意软件加密流量检测方法


[0001]本专利技术涉及恶意软件流量检测
,具体涉及一种基于集成学习的恶意软件加密流量检测方法。

技术介绍

[0002]恶意软件是一种旨在破坏计算机系统的程序,它是当今信息安全最严重的威胁之一。除了基于PE的恶意软件检测方法外,基于恶意软件产生的流量检测也是一种有效的方法。TLS是一种加密协议,用于为应用程序提供隐私性。近年来,随着TLS的广泛应用,互联网上的加密流量越来越多;同时,利用加密HTTP流量进行自传播或通信的恶意软件攻击数量也急剧增加;加密在保护用户隐私的同时,也存在安全风险,加密后的流量中可能隐藏着恶意流量,导致一系列安全问题。
[0003]识别这些加密流量是良性的还是恶意的,是一个巨大的挑战。网络基础设施安全的重要性,对检测的TPR和FPR都有很高的要求。传统的非加密流量检测方法难以应用于加密流量检测,因为它使得深度包检测(DPI)和模式匹配失效;传统的基于签名的方法只能检测签名已经存在的攻击,故基于签名的方法无法检测到新的攻击,并且加密后的有效载荷无法直接观察,且数量庞大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于集成学习的恶意软件加密流量检测方法,其特征在于,包括下述步骤:收集加密流量样本集,所述加密流量样本集包括多个异构特征,具体为:包长分布特征、服务端IP地址特征、证书词频特征、包长序列特征、TCP连接状态特征、流量特征以及主机特征;基于加密流量样本集的多个异构特征,构建相应的多个特征分类器,包括包长分布特征分类器、服务端IP地址特征分类器、证书词频特征分类器、包长序列特征分类器、TCP连接状态特征分类器、流量特征分类器以及主机特征分类器;基于所述多个特征分类器构建恶意软件加密流量检测模型,所述恶意软件加密流量检测模型利用多个特征分类器的多数投票来判断主机是否感染恶意软件。2.根据权利要求1所述基于集成学习的恶意软件加密流量检测方法,其特征在于,所述包长分布特征分类器的具体描述为:包长分布特征构建:针对每台主机,提取各个长度和方向的报文的数量,将提取的报文数量除以报文总数得到概率分布,该概率分布即为包长分布特征,特征的每个维度代表某方向和某长度的报文的概率;模型选择:使用随机森林分类器处理所述包长分布特征;在训练集中,随机森林分类器通过随机抽取特征的维度来构建多个CART决策树,这些CART决策树的集合就是随机森林分类器;在测试集中,使用上述多个CART决策树对样本进行预测,对每个样本输出一个判断为恶意的概率,当该概率>=0.5时,该分类器就判断该样本是恶意的。3.根据权利要求1所述基于集成学习的恶意软件加密流量检测方法,其特征在于,所述服务端IP地址特征分类器具体描述为:服务端IP地址特征构建:针对每台主机,对所有访问过的服务器IP进行独热编码,独热编码取值为1则表示该服务器IP地址被访问,独热编码取值为0表示该服务器IP地址未被访问,特征的每个维度代表某务器IP地址;模型选择:使用朴素贝叶斯分类器处理服务端IP地址特征;在训练集中,朴素贝叶斯分类器假设特征的各个维度之间是相互独立的,其单独计算特征的每一维度被分类的条件概率;在测试集中,利用上述条件概率求解每个样本为恶意的概率,如果概率>=0.5,则认为是恶意的,反之认为是良性的。4.根据权利要求1所述基于集成学习的恶意软件加密流量检测方法,其特征在于,所述证书词频特征分类器具体描述为:证书词频特征构建:针对每台主机,提取收到的所有TLS流X509证书链,得到证书Subject和Issuer所包含的单词,统计每个单词的数量,特征的每个维度代表某单词出现的次数;模型选择:使用朴素贝叶斯分类器处理证书词频特征;在训练集中,朴素贝叶斯分类器假设特征的各个维度之间是相互独立的,其单独计算特征的每一维度被分类的条件概率;在测试集中,利用上述条件概率求解每个样本为恶意的概率,如果概率>=0.5,则认为是恶意的,反之认为是良性的;如果一个样本的证书中的所有单词都没有出现在训练集中,就直接推断该样本是恶意的。5.根据权利要求1所述基于集成学习的恶意软件加密流量检测方法,其特征在于,所述包长序列特征分类器具体描述为:
包长序列特征构建:针对每台主机,提取其通信所产生的前1000个包长度组成的包长序列数组,不足1000个包的部分补0;模型选择:使用TextCNN卷积神经网络分类器处理包长序列特征;我们把每个数据包的长度作为一个单词,每台主机通信所产生的包长序列数组就相当于一个句子;在训练集中,包长序列数组依次通过词嵌入层,卷积层,池化层,全连接层和SoftMax层,最后整体使用梯度下降法更新上述层中的参数,上述层就构成了TextCNN卷积神经网络分类器;在测试集中,TextCNN卷积神经网络分类器对每个样本输出一个判断为恶意的概率,当该概率>=0.5时,该分类器就判断该样本是恶意的。6.根据权利要求1所述基于集成学习的恶意软件加密流量检测方法,其特征在于,所述TCP连接状态特征分类器具体描述为:TCP连接状态特征构建:针对每台主机,按照时间顺序对TLS加密流进行排序,...

【专利技术属性】
技术研发人员:李树栋赵传彧吴晓波韩伟红方滨兴田志宏殷丽华顾钊铨仇晶唐可可李默涵
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1