一种数据不平衡场景下的恶意流量检测方法技术

技术编号:28943340 阅读:21 留言:0更新日期:2021-06-18 21:52
本发明专利技术公开了一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本。涉及网络信息安全技术领域。该数据不平衡场景下的恶意流量检测方法,通过使用四元组来标识每个网络流,提取每条流的统计特征并做标准化处理,将端口信息、统计特征联合作为特征向量,构成训练集和测试集,在算法层面,通过将k‑means聚类算法与SMOTE过采样技术相结合,其设法通过仅在安全区域进行过采样来避免产生噪声,重点放在类别之间的不平衡和类别内部的不平衡,通过增加少数样本稀疏区域的少数类样本来对抗少数类样本分散的问题,扩充了少数类的样本量,为分类模型提供良好的训练数据。

【技术实现步骤摘要】
一种数据不平衡场景下的恶意流量检测方法
本专利技术涉及网络信息安全
,具体为一种数据不平衡场景下的恶意流量检测方法。
技术介绍
通常情况下,从现实场景中获取的数据大多都是不平衡的,少数类的样本数量往往远少于多数类样本,然而属于少数类的样本却往往具有更大的意义,例如欺诈检测、故障诊断以及网络入侵检测等领域,在机器学习领域类别不平衡问题一直受到研究人员们的关注,因此需要对该类恶意流量进行检测,针对该问题发展出了多种解决方法,主要可以分为四类:数据抽样、代价敏感学习、决策边界移动和集成学习方法,但是当传统的学习算法应用于不平衡数据集时,少数类很容易发生错误分类。目前,基于规则的恶意流量检测方法由于其在检测效果、检测效率以及人工干预上的局限性,很难适用于现如今海量网络数据的情况,随着人工智能技术的发展,越来越多的人使用机器学习或深度学习方法进行恶意流量检测,目前在恶意流量检测领域所用的训练数据可以分为正常流量样本和恶意流量样本,然而在实际网络环境中,恶意流量占比很小,因此存在着类别不平衡的问题,使用一般的学习算法进行分类时,恶意流量的召回本文档来自技高网...

【技术保护点】
1.一种数据不平衡场景下的恶意流量检测方法,其特征在于,包括以下操作步骤:/nS1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;/nS2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;/nS3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;/nS...

【技术特征摘要】
1.一种数据不平衡场景下的恶意流量检测方法,其特征在于,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:



假设给定训练集Φ={(xi,ti),ti∈ZM,i=1,2,…,N}(2);
其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成其中Φj代表第j类,因此每类的训练误差定义为:



其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:



从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:

进而有,
根据式(1)可以得出:



由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大...

【专利技术属性】
技术研发人员:戚岱杰窦凤虎郑超王媛娣
申请(专利权)人:中电积至海南信息技术有限公司
类型:发明
国别省市:海南;46

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1