当前位置: 首页 > 专利查询>四川大学专利>正文

一种生成恶意代码流量行为检测结构的方法技术

技术编号:26262706 阅读:40 留言:0更新日期:2020-11-06 18:01
本发明专利技术涉及流量识别领域和恶意代码检测领域,旨在提供一种基于机器学习的生成恶意代码流量行为检测结构的方法。该方法首先从带有恶意代码类别标签的pcap文件中提取预设值好的特征组成特征集;然后利用高斯混合模型算法、OPTICS算法以及相应规则生成的识别结构,并训练相适应的二分类监督学习模型填入其中,形成识别系统。该方法能够根据所需判断的流量的不同生成不同的系统结构,所生成的系统能够高效、准确地检测多种恶意代码同学行为。

【技术实现步骤摘要】
一种生成恶意代码流量行为检测结构的方法
本专利技术属于恶意代码通信流量识别领域,特别涉及一种生成恶意代码流量行为检测结构的方法。
技术介绍
近年来网络攻击事件频发,利用恶意代码进行敏感信息窃取日益猖獗。恶意代码通信流量主要是指,恶意代码与其控制命令服务器之间的通信,通信内容包括接受指令、回传敏感信息等。只要能够准确的识别出恶意代码通信行为和其所属类别,就能及时的做出响应,避免造成严重的后果。由于大量的通信内容进行了加密,无法还原其载荷内容,借助机器学习的恶意代码识别是主要手段。恶意代码通信流量所属类别的识别,是一个多分类问题。传统的多分类监督学习模型在识别准确率和效率上都无法有效的应用在真实场景中。因此使用怎样的机器学习模型来解决这个多分类问题是非常值得关注的。目前主流的做法是将恶意代码加密通信的识别这个多分类任务,分解为一组二分类任务,每个分类任务将一种恶意代码与其他种类区分开来。基于机器学习的多分类任务拆分成一组二分类模型的优势在于,机器学习的二分类模型识别更加迅速;识别一类行为的准确率高于多分类模型。但是不同的拆分方法对于最后识别本文档来自技高网...

【技术保护点】
1.一种生成恶意代码流量行为检测结构的方法,其特征在于,包括以下步骤:/n步骤1,基于捕获到的,具有所属恶意代码标签的,恶意代码通信的pcap文件,从中提取出给定的某一通信协议的数据流,每一条流提取相应特征,组成原始样本集;/n步骤2,使用高斯混合模型算法,从每一种恶意代码的原始样本集中计算出给定个数的均值样本,将所有均值样本组成一个聚类样本集;/n步骤3,利用OPTICS算法,在给定参数距离半径和点数阈值下,对聚类样本集进行聚类,得到每一个均值样本所属聚类簇,并依据聚类结果将恶意代码分为四类,中心类、次中心类、边缘类、噪音类;/n步骤4,基于均值样本所属聚类簇和所属恶意代码类别标签,计算恶意...

【技术特征摘要】
1.一种生成恶意代码流量行为检测结构的方法,其特征在于,包括以下步骤:
步骤1,基于捕获到的,具有所属恶意代码标签的,恶意代码通信的pcap文件,从中提取出给定的某一通信协议的数据流,每一条流提取相应特征,组成原始样本集;
步骤2,使用高斯混合模型算法,从每一种恶意代码的原始样本集中计算出给定个数的均值样本,将所有均值样本组成一个聚类样本集;
步骤3,利用OPTICS算法,在给定参数距离半径和点数阈值下,对聚类样本集进行聚类,得到每一个均值样本所属聚类簇,并依据聚类结果将恶意代码分为四类,中心类、次中心类、边缘类、噪音类;
步骤4,基于均值样本所属聚类簇和所属恶意代码类别标签,计算恶意代码类别之间的距离,依据距离和相应规则将恶意代码划归到聚类簇,依据划归顺序生成识别结构;
步骤5,基于生成的识别结构,训练相适应的二分类监督学习模型填入其中,形成识别系统,最后利用识别系统对多种恶意代码通信进行识别。


2.根据权利要求1所述的一种生成恶意代码流量行为检测结构的方法,其特征在于,步骤3中恶意代码所分四类的定义为:
中心类:恶意代码均值样本全部属于同一个簇;
次中心类:有一半以上的均值样本属于同一个簇;
边缘类:其均值样本属于多个簇,但没有一个簇超过一半;
噪音类:均值样本一半以上为噪音点。


3.根据权利要求1所述的一种生成恶意代码流量行为检测结构的方法,其特征在于,步骤4中恶意代码类别之间的距离定义为,初始距离为均值样本的数目n,两类均值样本若有h个所属簇除中心类所属簇和噪音点外相同的点,两类距离为n-h。


4.根据权利要求1所述的一种生成恶意代码流量行为检测结构的方法,其特征在于...

【专利技术属性】
技术研发人员:刘嘉勇田智毅郑荣锋
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1