基于IP地址画像的大规模IP自动分类方法、装置和介质制造方法及图纸

技术编号:34327312 阅读:23 留言:0更新日期:2022-07-31 01:23
本发明专利技术涉及一种基于IP地址画像的大规模IP自动分类方法,本方法首先基于各个IP画像的相似度关系构建图结构,由此确定核心的IP节点,对于新加入的节点,本方法对其进行分类的计算复杂度为O(n),n为核心节点的数量,因此适用于大规模IP数据的线上实时处理。同时,本方法在进行IP分类结果的更新时,会将之前的核心节点与新抽样的节点混合起来重新聚类,这一过程在一定程度上保证了各IP群体的核心稳定性,同时又能较好地反映它们的实时变化。本发明专利技术还涉及一种基于IP地址画像的大规模IP自动分类装置和存储介质。装置和存储介质。装置和存储介质。

【技术实现步骤摘要】
基于IP地址画像的大规模IP自动分类方法、装置和介质


[0001]本专利技术涉及社区发现领域,特别涉及基于IP地址画像的大规模IP自动分类方法、装置和介质。

技术介绍

[0002]在互联网访问行为分析中,针对访问日志中的IP访问记录和已有的IP画像属性,进行IP群体的自动划分,即IP自动分类分析是支撑互联网访问态势分析、访问行为分析的重要工作之一。
[0003]IP画像描述了IP的个体属性或特征,不同IP的各个特征之间隐含了一定的关联性,因此,可以把具有相似IP画像特征的多个IP划分为同一群体,这是IP自动分类的理论基础。此外,随着时间的推移,互联网访问信息会不断更新,IP的画像特征也会不断改变,这种IP画像的变化必然带来IP群体的变化。传统的方法中,通常会随着IP画像的变化,对所有的IP重新使用社区发现等算法,进行群体发现。此类方法的缺点是,在海量IP数据下,发现大规模IP群体时,效率低、耗时久,并需要耗费大量计算资源,因此不适合线上实时场景即IP画像动态变化的群体发现。此外,我们发现,大规模IP群体内,不同IP的画像实时变化的程度不同:一般群体中的“核心节点”较为稳定,而“边缘节点”则变化波动较大。如果采用传统的社区发现算法进行IP分类,则每次运行时,由于IP画像变化导致的计算顺序不同,也会影响群体生成的稳定性。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对现有技术的不足,提供基于IP地址画像的大规模IP自动分类方法、装置和介质。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]一种基于IP地址画像的大规模IP自动分类方法,所述方法包括:
[0007]S1、从IP数据样本库中随机抽取第一IP集,根据所述第一IP集中各IP之间的相似度关系,构建IP节点关系图;
[0008]S2、运用谱聚类算法,将所述IP节点关系图划分为多个子图,每张所述子图对应一个IP群体;
[0009]S3、根据所述IP节点关系图,确定每张所述子图的核心节点,并过滤掉包含IP数小于预设数量的所述子图;
[0010]S4、当新IP节点加入时,根据计算所述新IP节点与每个所述核心节点的相似度,确定所述新IP节点所属的所述IP群体;
[0011]S5、当所述IP地址画像更新后,再次从IP数据样本库中随机抽取第二若干IP后,将所述核心节点与所述第二若干IP混合后得到第二IP集,根据第二IP集中各IP间的相似度关系,构建所述IP节点关系图,重复执行所述S2至所述S4。
[0012]本方法专利技术的有益效果是:提出了一种基于IP地址画像的大规模IP自动分类方
法,包括首先基于各个IP画像的相似度关系构建图结构,由此确定核心的IP节点,对于新加入的节点,本方法对其进行分类的计算复杂度为O(n),n为核心节点的数量,因此适用于大规模IP数据的线上实时处理。同时,本方法在进行IP分类结果的更新时,会将之前的核心节点与新抽样的节点混合起来重新聚类,这一过程在一定程度上保证了各IP群体的核心稳定性,同时又能较好地反映它们的实时变化。
[0013]本专利技术解决上述技术问题的另一技术方案如下:
[0014]一种基于IP地址画像的大规模IP自动分类装置,所述装置包括:
[0015]构建模块,用于从IP数据样本库中随机抽取第一IP集,根据所述第一IP集中各IP之间的相似度关系,构建IP节点关系图;
[0016]划分模块,用于运用谱聚类算法,将所述IP节点关系图划分为多个子图,每张所述子图对应一个IP群体;
[0017]过滤模块,用于根据所述IP节点关系图,确定每张所述子图的核心节点,并过滤掉包含IP数小于预设数量的所述子图;
[0018]查新模块,用于当新IP节点加入时,根据计算所述新IP节点与每个所述核心节点的相似度,确定所述新IP节点所属的所述IP群体;
[0019]更新模块,用于当所述IP地址画像更新后,再次从IP数据样本库中随机抽取第二若干IP后,将所述核心节点与所述第二若干IP混合后得到第二IP集,根据第二IP集中各IP间的相似度关系,构建所述IP节点关系图,重复执行所述构建模块至所述查新模块。
[0020]此外,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述技术方案中任一项所述方法的步骤。
[0021]本专利技术还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述技术方案中任一项所述方法的步骤。
[0022]本专利技术附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术实践了解到。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本专利技术实施例所述的一种基于IP地址画像的大规模IP自动分类方法的流程示意图;
[0025]图2为本专利技术另一实施例所述的一种基于IP地址画像的大规模IP自动分类装置的模块示意图;
[0026]图3为本专利技术另一实施例所述的一种基于IP地址画像的大规模IP自动分类方法的实施示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0028]本申请提出了一种基于IP地址画像的大规模IP自动分类方法。该方法首先将对全部的大规模数据进行随机抽样,获取一定数量的IP画像,而传统的社区发现算法则会针对全部数据,计算每两个IP画像之间的相似度。然后通过谱聚类,把随机抽样得到的IP划分为不同的群体,并提取每个群体的核心结点。划分完毕后,对任意一个未知的IP,都可以通过比较其画像与各个核心节点的相似度而进行自动分类,提升IP群体实时更新的效率。这一方法既能保证短时间内IP群体的核心稳定性,又能即时地反映IP群体的最新变化。
[0029]现有技术需要对整个用户节点关系图运行社区发现算法,其局限性包括(一)方案的复杂度高,这在大规模数据的场景下,关系图中含有海量的节点和边,将耗费大量的运算和存储资源;(二)运算速度慢,无法实时的更新并给出某一节点所属的分类;(三)聚类结果的稳定性差,即便对于同样的关系图,运行两次社区发现算法,最终得到的社区即用户群,结构也往往存在巨大的偏差;(四)除“社区发现算法”之外,全量地构建用户节点关系图的过程的复杂度也达到了O(N2),同样不适合大规模数据场景。
[0030]为了解决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于IP地址画像的大规模IP自动分类方法,其特征在于,所述方法包括:S1、从IP数据样本库中随机抽取第一IP集,根据所述第一IP集中各IP之间的相似度关系,构建IP节点关系图;S2、运用谱聚类算法,将所述IP节点关系图划分为多个子图,每张所述子图对应一个IP群体;S3、根据所述IP节点关系图,确定每张所述子图的核心节点,并过滤掉包含IP数小于预设数量的所述子图;S4、当新IP节点加入时,根据计算所述新IP节点与每个所述核心节点的相似度,确定所述新IP节点所属的所述IP群体;S5、当所述IP地址画像更新后,再次从IP数据样本库中随机抽取第二若干IP后,将所述核心节点与所述第二若干IP混合后得到第二IP集,根据第二IP集中各IP间的相似度关系,构建所述IP节点关系图,重复执行所述S2至所述S4。2.如权利要求1所述的方法,其特征在于,所述S1具体包括:为所述第一IP集中各IP统计画像属性,所述画像属性包括字符串类型和归一化到0~1数值类型;从IP数据样本库中随机抽取K个IP,得到所述第一IP集,其中K是整数;计算所述第一IP集中每两个IP之间的相似度,所述相似度是指分别计算所述每两个IP的画像属性的分量的距离之和后取负指数;得到K2个IP对,取所有所述相似度中最高值的预设数量N个IP对,作为所述IP节点关系图中的边,其中,N是整数。3.如权利要求1所述的方法,其特征在于,所述S2具体包括:运用谱聚类算法,将所述IP节点关系图划分为M个子图;所述M是预定义超参数,通过比较不同M值对应的聚类结果的轮廓系数和SSE确定所述M;删除包含所述IP数小于所述预设数量的所述子图。4.如权利要求1所述的方法,其特征在于,所述S3具体包括:对于每张所述子图,计算所述每张子图中各节点的接近中心度;将所有所述接近中心度进行排序后,将排序结果在预设位置之前的所有所述节点作为所述子图的核心节点,所述子图中的其余节点作为边缘节点。5.如权利要求1所述的方法,其特征在于,所述S4具体包括:当所述新IP节点x加入时,计算所述新IP节点x与每个核心节点的相似度;将每张所述子图中的所有所述核心节点与所述新IP节点x的相似度中最小的相似度,作为所述新IP节点x与所述子图的相似度;将所述新IP节点x与所有所述子图的相似度中最高值所对应的所述子图所属的所述...

【专利技术属性】
技术研发人员:任博雅时磊佟玲玲任哲钧马英健徐雅静段东圣吕东段荣昌
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1