数据检测方法、装置及存储介质制造方法及图纸

技术编号:37860894 阅读:7 留言:0更新日期:2023-06-15 20:51
本发明专利技术提供了一种数据检测方法、装置及存储介质,方法包括:对多个当前待检数据处理得到多个特征向量;利用多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应的目标个数及多个目标中心点信息,以对多个特征向量进行分类得到多个中间聚类结果集,再通过目标个数以及多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集;将多个目标聚类结果集与多个匹配结果集进行匹配,确定出检测结果。由于本方案优化了不确定的待检数据,使每个待检数据都可以准确分类,而且通过多个特征的相关数据计算的多个目标聚类结果集,和多个当前待检数据更加匹配,进而提高了对多个当前待检数据的检测准确性。的检测准确性。的检测准确性。

【技术实现步骤摘要】
数据检测方法、装置及存储介质


[0001]本专利技术实施例涉及互联网及数据检测
,尤其涉及一种数据检测方法、装置及存储介质。

技术介绍

[0002]随着互联网的发展,全球广域网(World Wide Web,Web)服务的开放性和共享性给人们带来便利的同时,各种Web攻击的网络安全问题也随之而来。由此,Web攻击检测技术成为了解决网络安全问题的一种较为重要的手段。
[0003]聚类分析是数据挖掘中的一种重要的分析方法,它能通过分析数据的属性特征,将特征相近的数据归于同一个类中,而且不需要提前人为给出划分标准,属于无监督学习。
[0004]传统的聚类方法往往认为研究的对象与类之间的关系是属于和不属于,其聚类结果含有明显的分解线,但是这些结果类簇会存在某些不确定的对象,如果将他们强制划分到某个类簇中极易出现较高的决策风险,使Web攻击检测的准确性降低。
[0005]聚类方法在运行之前,聚类数目和初始聚类中心点作为算法模型函数的输入参数,需要事先给定。若获取的聚类数目与数据不匹配,或者初始聚类中心点与最终的初始聚类中心点的位置相差比较大,将会增加聚类算法运行的迭代次数,最终会导致聚类结果出现局部最优的情况,导致Web攻击检测的准确性降低。

技术实现思路

[0006]本专利技术实施例提供的一种数据检测方法、装置及存储介质,可以提高对数据的检测准确性。
[0007]本专利技术的技术方案是这样实现的:
[0008]本专利技术实施例提供了一种数据检测方法,包括:
>[0009]对获取的多个当前待检数据进行处理,得到多个当前待检数据对应的多个特征向量;
[0010]利用多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应的目标个数及多个目标中心点信息,以对多个特征向量进行分类得到多个中间聚类结果集;
[0011]将多个中间聚类结果集,通过目标个数以及多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集;
[0012]将多个目标聚类结果集与预设的多个匹配结果集进行匹配,确定出多个当前待检数据的检测结果;多个匹配结果集是对多个历史数据,通过与多个目标聚类结果集相同的处理方法得到的。
[0013]上述方案中,所述利用所述多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应的目标个数及多个目标中心点信息,以对所述多个特征向量进行分类得到多个中间聚类结果集,包括:
[0014]计算所述多个特征向量对应的每个特征的均值,根据所述均值结合对应特征的特
征值,计算所述多个特征的多个初始权重;
[0015]根据所述多个初始权重,与获取的初始聚类模型的聚类结果集的个数Z,及其对应的Z个第一中心点信息,对所述多个特征向量进行分类,得到Z个聚类结果集,并计算个数Z的有效性指标信息;Z为大于等于2的正整数;
[0016]计算所述Z个聚类结果集中的多个特征对应的多个Z级权重;
[0017]根据所述多个Z级权重,与获取的个数Z+1及其对应的Z+1个第一中心点信息,对所述多个特征向量进行分类,得到Z+1个聚类结果集,并计算个数Z+1的有效性指标信息和多个Z+1级权重,直至将所述多个特征向量分为K个聚类结果集,得到K个聚类结果集以及个数K对应的有效性指标信息,其中,K等于预设阈值;
[0018]根据个数Z至K对应的有效性指标信息,确定出多个中间聚类结果集的目标个数及其对应的多个第一中间聚类结果集,并根据所述多个第一中间聚类结果集对所述多个特征向量进行迭代分类,直至中心点信息满足预设条件,确定出所述多个目标中心点信息及所述多个中间聚类结果集。
[0019]上述方案中,所述利用所述多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应目标个数及其对应的多个目标中心点信息,以对所述多个特征向量进行分类得到多个中间聚类结果集之后,所述将所述多个中间聚类结果集,通过所述目标个数以及所述多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集之前,所述方法还包括:
[0020]利用所述目标个数和所述多个目标中心点信息,对初始聚类模型进行初始化,得到所述优化后的聚类模型;
[0021]所述将所述多个中间聚类结果集,通过所述目标个数以及所述多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集,包括:
[0022]在所述多个特征向量中确定出,包括预定比例个数特征向量的邻域;
[0023]遍历所述多个中间聚类结果集中的每个特征向量,并结合所述邻域,将所述多个特征向量分为核心域类簇和中间边界域类簇;所述核心域类簇包括:对应所述多个中间聚类结果集个数的结果集合;中间边界域类簇包括:在所述多个中间聚类结果集边界的一定数量的特征向量;
[0024]将所述中间边界域类簇输入所述优化后的聚类模型,得到边界域类簇;所述边界域类簇包括:对应所述多个中间聚类结果集个数的结果集合;
[0025]将所述边界域类簇中的结果集合,与所述核心域类簇中对应的结果集合进行组合,得到所述多个目标聚类结果集。
[0026]上述方案中,所述计算所述多个特征向量对应的每个特征的均值,根据所述均值结合对应特征的特征值,计算所述多个特征的多个初始权重,包括:
[0027]计算所述多个特征向量的所述每个特征的所述均值,结合所述每个特征对应的特征值与所述均值,计算所述每个特征的方差;
[0028]将所述每个特征的所述方差与,所述每个特征的所述方差之和相比,得到所述每个特征的初始权重。
[0029]上述方案中,所述根据所述多个初始权重,与获取的初始聚类模型的聚类结果集的个数Z,及其对应的Z个第一中心点信息,对所述多个特征向量进行分类,得到Z个聚类结
果集,包括:
[0030]结合所述多个初始权重,与所述多个特征向量对应的多个特征值计算每个特征向量与所述Z个第一中心点信息对应的Z个特征距离;
[0031]在所述每个特征向量对应的所述Z个特征距离中,确定出最小的特征距离对应的中心点信息,将所述每个特征向量划分到各自对应的中心点信息的聚类结果集中,进而得到所述Z个聚类结果集。
[0032]上述方案中,所述计算个数Z的有效性指标信息,包括:
[0033]计算所述Z个聚类结果集对应的Z个类内距离;
[0034]计算所述Z个聚类结果集两两之间的类间距离之和;
[0035]计算所述Z个类内距离与所述类间距离之和的比值,得到所述个数Z的有效性指标信息。
[0036]上述方案中,所述计算所述Z个聚类结果集中的多个特征对应的多个Z级权重,包括:
[0037]计算每个聚类结果集中的所述每个特征的第一均值,结合所述每个特征对应的特征值与所述第一均值,计算所述每个聚类结果集中的所述每个特征的第一方差;
[0038]将所述Z个聚类结果集中两两聚类结果集的所述每个特征的第一均值本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据检测方法,其特征在于,包括:对获取的多个当前待检数据进行处理,得到所述多个当前待检数据对应的多个特征向量;利用所述多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应的目标个数及多个目标中心点信息,以对所述多个特征向量进行分类得到所述多个中间聚类结果集;将所述多个中间聚类结果集,通过所述目标个数以及所述多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集;将所述多个目标聚类结果集与预设的多个匹配结果集进行匹配,确定出所述多个当前待检数据的检测结果;所述多个匹配结果集是对多个历史数据,通过与所述多个目标聚类结果集相同的处理方法得到的。2.根据权利要求1所述的数据检测方法,其特征在于,所述利用所述多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应的目标个数及多个目标中心点信息,以对所述多个特征向量进行分类得到多个中间聚类结果集,包括:计算所述多个特征向量对应的每个特征的均值,根据所述均值结合对应特征的特征值,计算所述多个特征的多个初始权重;根据所述多个初始权重,与获取的初始聚类模型的聚类结果集的个数Z及其对应的,Z个第一中心点信息,对所述多个特征向量进行分类,得到Z个聚类结果集,并计算个数Z的有效性指标信息;Z为大于等于2的正整数;计算所述Z个聚类结果集中的多个特征对应的多个Z级权重;根据所述多个Z级权重,与获取的个数Z+1及其对应的Z+1个第一中心点信息,对所述多个特征向量进行分类,得到Z+1个聚类结果集,并计算个数Z+1的有效性指标信息和多个Z+1级权重,直至将所述多个特征向量分为K个聚类结果集,得到K个聚类结果集以及个数K对应的有效性指标信息,其中,K等于预设阈值;根据个数Z至K对应的有效性指标信息,确定出多个中间聚类结果集的目标个数及其对应的多个第一中间聚类结果集,并根据所述多个第一中间聚类结果集对所述多个特征向量进行迭代分类,直至中心点信息满足预设条件,确定出所述多个目标中心点信息及所述多个中间聚类结果集。3.根据权利要求1所述的数据检测方法,其特征在于,所述利用所述多个特征向量对应多个特征的相关数据,确定出多个中间聚类结果集对应目标个数及其对应的多个目标中心点信息,以对所述多个特征向量进行分类得到多个中间聚类结果集之后,所述将所述多个中间聚类结果集,通过所述目标个数以及所述多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集之前,所述方法还包括:利用所述目标个数和所述多个目标中心点信息,对初始聚类模型进行初始化,得到所述优化后的聚类模型;所述将所述多个中间聚类结果集,通过所述目标个数以及所述多个目标中心点信息优化后的聚类模型,以及三支决策聚类算法处理,得到多个目标聚类结果集,包括:在所述多个特征向量中确定出,包括预定比例个数特征向量的邻域;遍历所述多个中间聚类结果集中的每个特征向量,并结合所述邻域,将所述多个特征
向量分为核心域类簇和中间边界域类簇;所述核心域类簇包括:对应所述多个中间聚类结果集个数的结果集合;中间边界域类簇包括:在所述多个中间聚类结果集边界的一定数量的特征向量;将所述中间边界域类簇输入所述优化后的聚类模型,得到边界域类簇;所述边界域类簇包括:对应所述多个中间聚类结果集个数的结果集合;将所述边界域类簇中的结果集合,与所述核心域类簇中对应的结果集合进行组合,得到所述多个目标聚类结果集。4.根据权利要求2所述的数据检测方法,其特征在于,所述计算所述多个特征向量对应的每个特征的均值,根据所述均值结合对应特征的特征值,计算所述多个特征的多个初始权重,包括:计算所述多个特征向量的所述每个特征的所述均值,结合所述每个特征对应的特征值与所述均值,计算所述每个特征的方差;将所述每个特征的所述方差与,所述每个特征的所述方差之和相比,得到所述每个特征的初始权重。5.根据权利要求2所述的数据检测方法,其特征在于,所述根据所述多个初始权重,与获取的初始聚类模型的聚类结果集的个数Z,及其对应的,Z个第一中心点信息,对所述多个特征向量进行分类,得到Z个聚类结果集,包括:结合所述多个初始权重,与所述多个特征向量对应的多个特征值计算每个特征向量与所述Z个第一中心点信息对应的Z个特征距离;在所述每个特征向量对应的所述Z个特征距离中,确定出最小的特征距离对应的中心点信息,将所述每个特征向量划分到各自对应的中心点信息的聚类结果集中,进而得到所述Z个聚类结果集。6.根据权利要求2所述的数据检测方法,其特征在于,所述计算个数Z的有效性指标信息,包括:计算所述Z个聚类结果集对应的Z个类内距离;计算所述Z个聚类结果集两两之间的类间距离之和;计算所述Z个类内距离与所述类间距离之和的比值,得到所述个数Z的有效性指标信息。7.根据权利要求2所述的数据检测方法,其特征在于,所述计算所述Z个聚类结果集中的多个特征对应的多个Z级权重,包括:计算每个聚类结果集中的所述每个特征的第一均值,结合所述每个特征对应的特征值与所述第一均值,计算所述每个聚类结果集中的所述每个特征的第一方差;将所述Z个聚类结果集中两两聚类结果集的所述每个特征的第一均值做差,再求差的平方值,得到所述Z个聚类结果集中两两聚类结果集对应所述每个特征的聚类中心点距离;将所述Z个聚类结果集中两两聚类结果集的所述每个特征的第一方差求和,再求和的平方值,得到所述每个特征的类内离散程度;求所述每个特征的所述聚类中心点距离,与对应的所述类内离散程度之比,得到所述每个特征的聚类质量,将所述每个特征的所述聚类质量与所述多个特征的聚类质量之和相比,得到所述每个特征的Z级权重,进而得到多个Z级权重。
8.根据权利...

【专利技术属性】
技术研发人员:季赛花陈传运李国辉范德宝张凯王凯亮严霞徐玮巍
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1