一种过采样方法、装置、设备及存储介质制造方法及图纸

技术编号:30831531 阅读:13 留言:0更新日期:2021-11-18 12:46
本发明专利技术公开了一种过采样方法、装置、设备及存储介质,该方法包括:获取包含攻击样本及正常样本的样本集,所述攻击样本为计算机发生网络攻击时采集的对应数据,所述正常样本为所述计算机未发生网络攻击时采集的对应数据;对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,并确定包含所述攻击样本的子簇均为待采样子簇;按照任意样本周围预设范围内存在攻击样本越多、该任意样本被选取为种子样本的概率越大的原则,从每个所述待采样子簇中选取种子样本,基于所述种子样本合成新的样本,以实现样本过采样。本申请能够使得样本集实现数据平衡,有效提高基于采集到的样本集实现入侵检测时的入侵检测准确性。实现入侵检测时的入侵检测准确性。实现入侵检测时的入侵检测准确性。

【技术实现步骤摘要】
一种过采样方法、装置、设备及存储介质


[0001]本专利技术涉及入侵检测
,更具体地说,涉及一种过采样方法、装置、设备及存储介质。

技术介绍

[0002]入侵检测领域中,网络攻击类型繁杂,有些攻击类型很常见,如DDOS、暴力破解、ARP欺骗等;而有些攻击类型出现比较少,如未获授权的本地超级用户特权访问(U2R)、未授权的远程主机的访问(R2L)等。不同攻击带来的影响不同,如DDOS攻击可能会对整个网络造成破坏,降低服务性能,阻止终端服务,而远程主机的未授权访问会导致主机被控制从而进行违法犯罪活动。为了实现入侵检测以避免上述不良影响,通常需要对可能发生网络攻击的计算机进行数据采集,进而基于采集的数据判断计算机是否发生网络攻击;现有技术中通过过采样算法实现数据采集,但是经常会发生采集到的数据不平衡的问题,也即表示计算机未发生网络攻击的数据远多于表示计算机发生网络攻击的数据,此时基于采集到的数据实现入侵检测会导致入侵检测准确性较低的问题。

技术实现思路

[0003]本专利技术的目的是提供一种过采样方法、装置、设备及存储介质,能够使得样本集实现数据平衡,有效提高基于采集到的样本集实现入侵检测时的入侵检测准确性。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种过采样方法,包括:
[0006]获取包含攻击样本及正常样本的样本集,所述攻击样本为计算机发生网络攻击时采集的对应数据,所述正常样本为所述计算机未发生网络攻击时采集的对应数据;
[0007]对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,并确定包含所述攻击样本的子簇均为待采样子簇;
[0008]按照任意样本周围预设范围内存在攻击样本越多、该任意样本被选取为种子样本的概率越大的原则,从每个所述待采样子簇中选取种子样本,基于所述种子样本合成新的样本,以实现样本过采样。
[0009]优选的,从每个所述待采样子簇中选取种子样本之前,还包括:
[0010]按照任意待采样子簇中样本密集程度越高、该任意待采样子簇对应采样比例越低的原则,基于每个待采样子簇中样本密集程度确定每个待采样子簇的采样比例,并确定需要合成的新的样本总数量与任意采样比例的乘积、为需要基于该任意采样比例对应待采样子簇合成的新的样本的数量。
[0011]优选的,基于每个待采样子簇中样本密集程度确定需要基于每个待采样子簇合成的新的样本的数量,包括:
[0012]确定每个待采样子簇中的任意待采样子簇为当前待采样子簇;
[0013]按照下列公式计算当前待采样子簇的样本密集程度:
[0014][0015]按照下列公式计算当前待采样子簇的采样比例:
[0016][0017]按照下列公式计算需要基于当前待采样子簇合成的新的样本的数量:
[0018]Num
e
=Num
smote
*SR;
[0019]其中,n为当前待采样子簇中包含的样本总数量,dist为当前待采样子簇中每两个样本之间的欧氏距离的和,intensity为当前待采样子簇的样本密集程度,SR为当前待采样子簇的采样比例,Num
smote
为所述样本集中攻击样本与正常样本的个数差,Num
e
为需要基于当前待采样子簇合成的新的样本的数量。
[0020]优选的,从当前待采样子簇中选取种子样本,包括:
[0021]按照下列公式计算当前待采样子簇中各样本的概率分布:
[0022][0023][0024]其中,seed
i
为样本i的概率,k为样本i的k近邻中的k,SP为当前待采样子簇中各样本的概率分布,dq为当前待采样子簇中样本i到样本i的k近邻中每个样本之间的距离;
[0025]基于当前待采样子簇中各样本的概率分布,按照轮盘赌算法从当前待采样子簇中选取种子样本。
[0026]优选的,对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,包括:
[0027]将所述样本集中包含的全部样本初始化为多个子簇,且每个所述子簇中至多包含一个攻击样本;
[0028]确定距离小于距离阈值的分别包含有攻击样本的两个子簇分别为第一子簇及第二子簇,如果第一子簇及第二子簇之间不存在不含有攻击样本的子簇,则将第一子簇及第二子簇合并,否则,确定无法将第一子簇及第二子簇合并;
[0029]返回执行确定第一子簇及第二子簇的步骤,直至任意两个分别包含攻击样本的子簇之间的距离均大于距离阈值为止。
[0030]优选的,基于所述种子样本合成新的样本,包括:
[0031]针对任意种子样本,从该任意种子样本所属待采样子簇包含的属于该任意种子样本k近邻的样本中,选取一个样本作为待用样本,通过在该任意种子样本及对应待用样本之间插值合成新的样本。
[0032]优选的,基于所述种子样本合成新的样本之后,包括:
[0033]将新的样本加入至样本集中,判断所述样本集中攻击样本及正常样本的数量差值是否在差值范围内,如果是,则确定完成过采样,否则,返回执行对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇的步骤。
[0034]一种过采样装置,包括:
[0035]获取模块,用于:获取包含攻击样本及正常样本的样本集,所述攻击样本为计算机
发生网络攻击时采集的对应数据,所述正常样本为所述计算机未发生网络攻击时采集的对应数据;
[0036]划分模块,用于:对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,并确定包含所述攻击样本的子簇均为待采样子簇;
[0037]采样模块,用于:按照任意样本周围预设范围内存在攻击样本越多、该任意样本被选取为种子样本的概率越大的原则,从每个所述待采样子簇中选取种子样本,基于所述种子样本合成新的样本,以实现样本过采样。
[0038]一种过采样设备,包括:
[0039]存储器,用于存储计算机程序;
[0040]处理器,用于执行所述计算机程序时实现如上任一项所述过采样方法的步骤。
[0041]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述过采样方法的步骤。
[0042]本专利技术提供了一种过采样方法、装置、设备及存储介质,该方法包括:获取包含攻击样本及正常样本的样本集,所述攻击样本为计算机发生网络攻击时采集的对应数据,所述正常样本为所述计算机未发生网络攻击时采集的对应数据;对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,并确定包含所述攻击样本的子簇均为待采样子簇;按照任意样本周围预设范围内存在攻击样本越多、该任意样本被选取为种子样本的概率越大的原则,从每个所述待采样子簇中选取种子样本,基于所述种子样本合成新的样本,以实现样本过采样。本申请获取包含计算机发生网络攻击时采集的攻击样本、未发生网络攻击时采集的正常样本的样本集后,对样本集进行聚类划分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种过采样方法,其特征在于,包括:获取包含攻击样本及正常样本的样本集,所述攻击样本为计算机发生网络攻击时采集的对应数据,所述正常样本为所述计算机未发生网络攻击时采集的对应数据;对所述样本集中包含的全部样本进行聚类划分得到相应的多个子簇,并确定包含所述攻击样本的子簇均为待采样子簇;按照任意样本周围预设范围内存在攻击样本越多、该任意样本被选取为种子样本的概率越大的原则,从每个所述待采样子簇中选取种子样本,基于所述种子样本合成新的样本,以实现样本过采样。2.根据权利要求1所述的方法,其特征在于,从每个所述待采样子簇中选取种子样本之前,还包括:按照任意待采样子簇中样本密集程度越高、该任意待采样子簇对应采样比例越低的原则,基于每个待采样子簇中样本密集程度确定每个待采样子簇的采样比例,并确定需要合成的新的样本总数量与任意采样比例的乘积、为需要基于该任意采样比例对应待采样子簇合成的新的样本的数量。3.根据权利要求2所述的方法,其特征在于,基于每个待采样子簇中样本密集程度确定需要基于每个待采样子簇合成的新的样本的数量,包括:确定每个待采样子簇中的任意待采样子簇为当前待采样子簇;按照下列公式计算当前待采样子簇的样本密集程度:按照下列公式计算当前待采样子簇的采样比例:按照下列公式计算需要基于当前待采样子簇合成的新的样本的数量:Num
e
=Num
smote
*SR;其中,n为当前待采样子簇中包含的样本总数量,dist为当前待采样子簇中每两个样本之间的欧氏距离的和,intensity为当前待采样子簇的样本密集程度,SR为当前待采样子簇的采样比例,Num
smote
为所述样本集中攻击样本与正常样本的个数差,Num
e
为需要基于当前待采样子簇合成的新的样本的数量。4.根据权利要求3所述的方法,其特征在于,从当前待采样子簇中选取种子样本,包括:按照下列公式计算当前待采样子簇中各样本的概率分布:按照下列公式计算当前待采样子簇中各样本的概率分布:其中,seed
i
为样本i的概率,k为样本i的k近邻中的k,SP为当前待采样子簇中各样本的概率分布,dq为当前待采样子簇中样本i到样本i的k近邻中每个样本之间的距离...

【专利技术属性】
技术研发人员:张晓冰范渊
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1