当前位置: 首页 > 专利查询>湖南大学专利>正文

基于磁盘的数据图中三角形个数确定方法及相关设备技术

技术编号:38501391 阅读:14 留言:0更新日期:2023-08-15 17:08
本申请提供一种基于磁盘的数据图中三角形个数确定方法及相关设备,可以提高计算数据图中三角形个数时的计算效率。该方法包括:根据原始数据集确定目标数据图中每个目标端点标识的度数;根据每个目标端点标识的度数确定目标数据图所对应的目标端点标识排序;根据目标端点标识排序对原始数据集以及目标数据图进行调整,以得到目标数据集以及第一数据图;根据目标数据集对第一数据图进行散列构建,以得到第一数据图所对应的散列结果;确定第一数据图所对应的各个分区中每个分区的分区文件;根据第一数据图所对应的散列结果以及每个分区的分区文件确定每个分区的分区伴随文件;根据每个分区的分区伴随文件确定目标数据图中包含的三角形个数。包含的三角形个数。包含的三角形个数。

【技术实现步骤摘要】
基于磁盘的数据图中三角形个数确定方法及相关设备


[0001]本申请属于数据处理领域,特别涉及一种基于磁盘的数据图中三角形个数确定方法及相关设备。

技术介绍

[0002]随着互联网的产生和发展,各种移动应用运用而生,随之带来的是海量的数据。这些数据从人们的日常行为中产生,具有极高的分析价值。这些数据往往很容易通过图表的方式进行建模。将现实世界中的对象和关系抽象为点和边,从而建立关系图。这关系图进行高效的图结构分析具有重要的意义。
[0003]三角形计数,作为图结构分析算法的基础,是学者们长期以来的关注点。一旦对三角形计数算法做出改进,就能对大量的图分析算法提升。
[0004]互联网的快速发展,数据量呈几何级别增长,完全基于内存的三角形计数算法无法满足人们大数据量的需求,它们无法有效地处理存储在磁盘上的大图。

技术实现思路

[0005]本申请提供一种基于磁盘的数据图中三角形个数确定方法及相关设备,可以减少在确定数据图中三角形个数时三角形的候选解,进而提高计算效率。
[0006]本申请第一方面提供了一种基于磁盘的数据图中三角形个数确定方法,包括:
[0007]确定目标数据图所对应的原始数据集;
[0008]根据所述原始数据集确定所述目标数据图中每个目标端点标识的度数;
[0009]根据所述每个目标端点标识的度数对所述目标数据图中的端点标识进行重排序,以得到所述目标数据图所对应的目标端点标识排序;
[0010]根据所述目标端点标识排序对所述原始数据集以及所述目标数据图进行调整,以得到目标数据集以及第一数据图;
[0011]根据所述目标数据集对所述第一数据图进行散列构建,以得到所述第一数据图所对应的散列结果;
[0012]确定所述第一数据图所对应的各个分区中每个分区的分区文件;
[0013]根据所述第一数据图所对应的散列结果以及所述每个分区的分区文件确定所述每个分区的分区伴随文件;
[0014]根据所述每个分区的分区伴随文件确定所述目标数据图中包含的三角形个数。
[0015]本申请第二方面提供了一种基于磁盘的数据图中三角形个数确定装置,包括:
[0016]第一确定单元,用于确定目标数据图所对应的原始数据集;
[0017]第二确定单元,用于根据所述原始数据集确定所述目标数据图中每个目标端点标识的度数;
[0018]重排序单元,用于根据所述每个目标端点标识的度数对所述目标数据图中的端点标识进行重排序,以得到所述目标数据图所对应的目标端点标识排序;
[0019]调整单元,用于根据所述目标端点标识排序对所述原始数据集以及所述目标数据图进行调整,以得到目标数据集以及第一数据图;
[0020]散列构建单元,用于根据所述目标数据集对所述第一数据图进行散列构建,以得到所述第一数据图所对应的散列结果;
[0021]第三确定单元,用于确定所述第一数据图所对应的各个分区中每个分区的分区文件;
[0022]第四确定单元,用于根据所述第一数据图所对应的散列结果以及所述每个分区的分区文件确定所述每个分区的分区伴随文件;
[0023]第五确定单元,用于根据所述每个分区的分区伴随文件确定所述目标数据图中包含的三角形个数。
[0024]本申请实施例第三方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的基于磁盘的数据图中三角形个数确定方法的步骤。
[0025]本申请实施例第四方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述任一方面所述的基于磁盘的数据图中三角形个数确定方法的步骤。
[0026]相对于相关技术,本申请提供的实施例中,基于磁盘的数据图中三角形个数确定装置确定数据图中包含的三角形个数时,在三角形计数算法中提出了散列思想,对数据集进行散列构建,由此可以大大减少了在确定数据图中三角形个数时三角形的候选解,进而提高计算效率。
【附图说明】
[0027]图1为本申请实施例提供的三角形计数的示例图;
[0028]图2为本申请实施例提供的基于磁盘的数据图中三角形个数确定方法的流程示意图:
[0029]图3为本申请实施例提供的目标数据图的结构示意图;
[0030]图4为本申请实施例提供的第一数据图的结构示意图;
[0031]图5为本申请实施例提供的散列结构的确定方式的示意图;
[0032]图6为本申请实施例提供的分区伴随文件的示意图;
[0033]图7为本申请实施例提供的基于磁盘的数据图中三角形个数确定装置的虚拟结构示意图;
[0034]图8为本申请实施例提供的服务器的硬件结构示意图。
【具体实施方式】
[0035]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0036]首先对本申请涉及的一些名词进行说明:
[0037]三角形:是一种完全图(即任意两点之间有边)。网络中三角形的数量可以反映网络的稠密程度和质量。
[0038]三角形计数:一条边的两个点如果有共同邻居,那么这三个点就构成了三角形结构,统计如此的三角形结构就完成了三角形计数算法,如图1所示,图1为本申请实施例提供的三角形计数的示例图。
[0039]下面从基于磁盘的数据图中三角形个数确定装置的角度对基于磁盘的数据图中三角形个数确定方法的进行说明,该基于磁盘的数据图中三角形个数确定装置可以为服务器,也可以为服务器中的服务单元,具体不做限定。
[0040]请结合参阅图2,图2为本申请实施例提供的基于磁盘的数据图中三角形个数确定方法的流程示意图,包括:
[0041]201、确定目标数据图所对应的原始数据集。
[0042]本实施例中,基于磁盘的数据图中三角形个数确定装置可以确定目标数据图所对应的原始数据集,如图3所示,图3为本申请实施例提供的目标数据图的结构示意图,该原始数据集格式为<src1,des1>,<src2,des2>,

,<src
n
,des
n
>其中,src表示目标数据图中边的起点标识,des表示目标数据图中边的终点标识。
[0043]202、根据原始数据集确定目标数据图中每个目标端点标识的度数。
[0044]本实施例中,基于磁盘的数据图中三角形个数确定装置在确定原始数据集之后,可以根据原始数据集确定目标数据图中每个目标端点标识的度数,也即根据目标数据图中的边数据得到每个目标端点标识的度数,图3所示的目标数据图中各个端点标识ID(此处以oldID对图3中各个端点标识进行说明)对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于磁盘的数据图中三角形个数确定方法,其特征在于,包括:确定目标数据图所对应的原始数据集;根据所述原始数据集确定所述目标数据图中每个目标端点标识的度数;根据所述每个目标端点标识的度数对所述目标数据图中的端点标识进行重排序,以得到所述目标数据图所对应的目标端点标识排序;根据所述目标端点标识排序对所述原始数据集以及所述目标数据图进行调整,以得到目标数据集以及第一数据图;根据所述目标数据集对所述第一数据图进行散列构建,以得到所述第一数据图所对应的散列结果;确定所述第一数据图所对应的各个分区中每个分区的分区文件;根据所述第一数据图所对应的散列结果以及所述每个分区的分区文件确定所述每个分区的分区伴随文件;根据所述每个分区的分区伴随文件确定所述目标数据图中包含的三角形个数。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集对所述第一数据图进行散列构建,以得到所述第一数据图所对应的散列结果包括:确定所述第一数据图所对应的初始散列表;确定目标起始点所对应的目标散列值,所述目标起始点为所述目标数据集中的任意一个起始点;根据所述目标散列值对所述初始散列表进行调整,以得到所述第一数据图所对应的散列结果。3.根据权利要求2所述的方法,其特征在于,所述确定所述目标起始点所对应的目标散列值包括:通过如下公式确定所述目标起始点所对应的目标散列值:S=(des+Parm
i
*src)%BitSetSize;其中,S为所述目标散列值,des为所述目标起始点所对应的终点标识,src为所述目标起始点的标识,Parm
i
以及BitSetSize为预设值,i∈1,2,...,n,n为预设常数;所述根据所述目标散列值对所述初始散列表进行调整,以得到所述第一数据图所对应的散列结果包括:根据所述目标散列值确定所述目标边在所述初始散列表中的目标位置;根据所述目标散列值调整所述目标位置的散列值。4.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据图所对应的各个分区中每个分区的分区文件包括:确定所述每个分区所对应的最大度数;确定所述第一数据图中每条边的度数;根据所述每个分区所对应的最大度数以及所述每条边的度数确定所述每个分区的分区文件,所述每个分区中各条边的起点标识小于终点标识,且所述第一数据图中的各条边仅出现在所述各个分区中的一个分区内。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据图所对应的散列结果以及所述每个分区的分区文件确定所述每个分区的分区伴随文件包括:
确定目标起点标识所对应的第一邻接表,所述目标起点标识为所述目标数据集中的任意一个起点标识,所述...

【专利技术属性】
技术研发人员:李友焕李梓铭石沛凡秦拯
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1