【技术实现步骤摘要】
一种大数据的多密集块检测与提取方法
[0001]本专利技术涉及一种大数据的多密集块检测与提取方法,属于异常数据检测
技术介绍
[0002]随着大数据时代的到来,异常数据的检测越来越重要,包含网络攻击的异常数据通常具有“一致性”,比如:一组IP地址每隔相同的时间就向一组目标IP的几个固定端口发送请求;购买僵尸粉以提高影响力的欺诈行为数据会呈现出一群特定用户所关注的用户具有高度的一致性。通过建立张量模型,上述异常数据的“一致性”会使张量数据出现密集块,因此可以通过检测与提取张量数据中的密集块来实现网络攻击检测、社交网络僵尸粉检测等异常数据检测功能。
[0003]现阶段,针对张量模型的密集块检测与提取方法主要包括:
[0004]1、基于张量分解的密集块检测方法,具体包括HOSVD和CP分解等方法,此类方法虽然可以检测到密集块,但是其在密度指标下不具有较高延展性,而且不能提供合理的边界。
[0005]2、基于Suspiciousness的CrossSpot检测方法,该方法提出一种Suspicious ...
【技术保护点】
【技术特征摘要】
1.一种大数据的多密集块检测与提取方法,其特征在于,包括如下步骤:获取K维张量数据D、待提取密集块个数m和密集块尺寸范围;利用基于分段函数的密度跟踪系数对K维张量数据D进行可疑程度度量,并根据可疑程度和密集块尺寸范围生成snapshots列表;根据snapshots列表从K维张量数据D中提取m个密集块。2.根据权利要求1所述的一种大数据的多密集块检测与提取方法,其特征在于,利用基于分段函数的密度跟踪系数对K维张量数据D进行可疑程度度量的方法包括:将K维张量数据D作为输入数据;将输入数据的每个维度下计数最少的一列删除,获得每个维度的剩余块b
i
,其中,i表示维度,i=1,2,
…
,K;基于分段函数计算每个维度的剩余块b
i
的密度跟踪系数;根据密度跟踪系数计算每个维度的剩余块b
i
对于输入张量数据D的可疑程度DTS值。3.根据权利要求2所述的一种大数据的多密集块检测与提取方法,其特征在于,密度跟踪系数的表达式如下:其中,表示第i个维度的剩余块b
i
的密度跟踪系数,表示剩余块b
i
的总计数,表示剩余块b
i
的尺寸的乘积。4.根据权利要求2所述的一种大数据的多密集块检测与提取方法,其特征在于,可疑程度DTS值的计算公式如下:其中,表示第i个维度的剩...
【专利技术属性】
技术研发人员:王俊松,边荟凇,洪海兵,金易琛,
申请(专利权)人:南京信息职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。