一种基于熵的密集块检测方法及系统技术方案

技术编号:37672311 阅读:32 留言:0更新日期:2023-05-26 04:34
本发明专利技术公开了一种基于熵的密集块检测方法及系统,方法包括:获取K维张量数据D、固有一致性参照维度s、待提取密集块个数num和密集块尺寸范围;根据固有一致性参照维度s和密集块尺寸范围,通过分析K维张量数据D中不同数据块的密集程度,从K维张量数据D中提取num个密集块;其中,密集程度分析方法采用基于熵的密集块密集程度度量方法。本发明专利技术给固有一致性行为形成的密集块赋予较低的密集程度,能够降低固有一致性行为对密集块检测的影响,进而检测出非固有一致性行为形成的有价值、有意义的密集块。块。块。

【技术实现步骤摘要】
一种基于熵的密集块检测方法及系统


[0001]本专利技术涉及一种基于熵的密集块检测方法及系统,属于异常数据检测


技术介绍

[0002]随着大数据时代的到来,如何利用数据挖掘技术,进行大数据分析,有效释放数据价值,辅助各领域进行控制管理,成为了机器学习、数据挖掘和人工智能领域研究的热点问题,其中,异常数据检测是大数据分析中的重要一环。在很多数据场景下,异常数据往往具有“一致性”,通过一致性行为检测可以快速识别异常数据。目前,一致性行为检测的主要方法为密集块检测方法,密集块检测通过将多维关系数据建模成高维张量数据,在高维张量数据中寻找相对密集的子张量(即密集块),从而找到有价值的一致性行为。密集块检测方法被广泛应用于网络安全、电信通讯等多个领域。
[0003]现阶段,针对张量模型的密集块检测方法主要包括:1、基于张量分解与密集子图挖掘的密集块检测技术,主要包括SVD方法,HOSVD方法,PARAFAC方法,PageRank/TrustRank方法以及其他密集子图挖掘方法;2、基于搜索寻优的密集块检测技术,包括CrossSpot,M本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于熵的密集块检测方法,其特征在于,包括如下步骤:获取K维张量数据D、固有一致性参照维度s、待提取密集块个数num和密集块尺寸范围;根据固有一致性参照维度s和密集块尺寸范围,通过分析K维张量数据D中不同数据块的密集程度,从K维张量数据D中提取num个密集块;其中,密集程度分析方法采用基于熵的密集块密集程度度量方法。2.根据权利要求1所述的一种基于熵的密集块检测方法,其特征在于,从关系型数据中提取K维数据,建模成K维张量数据D,其中K个维度分别为dim1,dim2,

,dim
K
;根据密集块检测需求,从关系型数据剩余的维度中选取一个维度,作为固有一致性参照维度s,其中,K维张量数据D的某一个维度Pr与固有一致性参照维度s存在映射关系,映射关系为f:Pr

s,Pr为关联维度,Pr∈{dim1,dim2,

,dim
K
}。3.根据权利要求1所述的一种基于熵的密集块检测方法,其特征在于,密集块尺寸范围包括密集块中各个维度的尺寸下限{min1,min2,min3,

,min
K
}和各个维度的尺寸上限{max1,max2,max3,

,max
K
},min
i
表示密集块第i个维度的尺寸下限,max
i
表示密集块第i个维度的尺寸上限,i=1,2,

,K。4.根据权利要求1所述的一种基于熵的密集块检测方法,其特征在于,设密集块尺寸为size=n1×
n2×
n3×…×
n
K
,密集块尺寸范围为size∈[min,max],n
i
表示密集块第i个维度中的元素数量,min表示密集块尺寸下限,max表示密集块尺寸上限,i=1,2,

,K。5.根据权利要求1所述的一种基于熵的密集块检测方法,其特征在于,从K维张量数据D中提取num个密集块的方法包括:(1)初始化max_metric=0,opt_snapshot=D,B=D,其中,max_metric用于存储当前最大的密集程度度量值,opt_snapshot用于存储max_metric对应的数据块快照;(2)计算B中每个维度下每个属性对应列的计数;(3)根据每个维度下每个属性对应列的计数,将B中第i个维度下计数最少的一列数据删除,得到对应的剩余数据块b
i
,其中,i=1,2,

,K;(4)根据基于熵的密集块密集程度度量方法分析每一个维度剩余数据块的密集程度,得到K个剩余数据块的密集程度度量值;(5)比较K个剩余数据块的密集程度度量值,得到密集程度最大的剩余数据块b
max
及其对应的密集程度度量值metric(b
max
,D),令B=b
max
;(6)比较metric(b
max
,D)和max_metric,如果metric(b
max
,D)≤max_metric,直接进入下一步,如果metric(b
max
,D)>max_metric,则令max_metric=metric(b
max
,D),opt_snapshot=b
max
,进入下一步;(7)判断B是否为空,如果B为空,进入下一步,否则返回步骤(2);(8)判断opt_snapshot中的数据块快照是否满足密集块尺寸范围,如果不满足,直接进入下一步,如果满足,将opt_snapshot中的数据块快照作为一个密集块输出;(9)将opt_snapshot中的数据块快照从张量数据D中去除,得到更新后的张量数据D;(10)基于更新后的张量数据D,返回步骤(1),重复步骤(1)~(9),直至得到num个密集块。6.根据权利要求2或5所述的一种基于熵的密集块检测方法,其特征在于,基于熵的密
集块密集程度度量方法包括:根据固有一致性参照维度s计算K维张量数据D中某个数据块Block的固有一致性衰减系数:其中,NSAR表示固有一致性衰减系数,p
j
表示在映射关系f下、数据块Block的关联维度Pr中像为s

中第j个属性的源像个数与数据块Block的关联维度Pr中属性总数的比值,s

表示在映射关系f下遍历数据块Block的关联维度Pr中所有属性后在固有一致性维度s中取到的像的集合,t表示s

中属性总数;根据固有一致性衰减系数计算数据块Block相对于K维张量数据D的密集程度:其中,metric(Block,D)表示数据块Block相对于K维张量数据D的密集程度度量值,Suspiciousness表示密集度量指标,f(n,c,N,C)表示Suspiciousness的函数,c表示数据块Block的总计数,C表示K维张量数据D的总计数,n表示数据块Block的尺寸,n={n1,

,...

【专利技术属性】
技术研发人员:边荟凇洪海兵王俊松
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1