一种基于社区模型的图数据库的数据生成方法及装置制造方法及图纸

技术编号:39598646 阅读:11 留言:0更新日期:2023-12-03 19:57
本申请涉及图数据库技术领域,解决了现有技术中公开数据集没有垂直领域的独特的特性,无法体现在某一特定领域内的性能特性的问题,公开了一种基于社区模型的图数据库的数据生成方法及装置,该方法包括:随机生成不重复的符合数据量要求的点数据;通过对社区模型进行特征分析来获取社区特征;根据社区模型和社区特征生成社区数据;从所述社区数据中抽取边数据,该方法可以保证生成的图数据具有一定的社区真实性,符合一定的业务领域特性,在做功能和性能测试时可以针对该领域做验证,可以模拟真实性数据用于验证图数据库的查询能力和图计算的算法能力

【技术实现步骤摘要】
一种基于社区模型的图数据库的数据生成方法及装置


[0001]本申请涉及图数据库
,尤其是一种基于社区模型的图数据库的数据生成方法及装置


技术介绍

[0002]随着大数据和人工智能的飞速发展,目前兴起了很多可靠的

分布式的

可线性扩展的图数据库系统和图计算系统,图数据库系统和图计算系统广泛应用在实时推荐

金融风控

知识图谱
、AI
等领域,助力企业发掘数据背后的关联

而确认图数据库和图计算功能的准确性和性能的可靠性,需要使用一定的大规模数据集进行基准测试,而目前大多使用
Twitter
数据集
、LDBC
数据集
、LiveJournal
数据集等进行测试,但这些公开数据集可能没有垂直领域的独特的特性,无法体现在某一特定领域内的性能特性

所以针对图数据库系统和图计算系统生成一套具有业务领域特性的大规模数据集有一定的验证性意义


技术实现思路

[0003]本申请的目的在于克服现有技术中公开数据集没有垂直领域的独特的特性,无法体现在某一特定领域内的性能特性的问题,提供一种基于社区模型的图数据库的数据生成方法及装置

[0004]第一方面,提供了一种基于社区模型的图数据库的数据生成方法,包括:根据点数据量要求,随机生成不重复的符合数据量要求的点数据;通过对社区模型进行特征分析来获取社区特征;根据社区模型和社区特征生成社区数据;从所述社区数据中抽取边数据

[0005]进一步的,根据点数据量要求,随机生成不重复的符合数据量要求的点数据,包括:根据每种类别点数据量要求和并发度要求,确定每个并发线程中需要负责生成的数据量;对每个点生成对应的属性数据,并对每条属性数据按照一定的基础数值按顺序递增,生成点的
id


[0006]进一步的,通过对社区模型进行特征分析来获取社区特征,包括:对给定的真实社区模型进行特征分析,统计社区内各类节点的数量和各类边的数量

[0007]进一步的,根据社区模型和社区特征生成社区数据,包括:遍历社区模型数据,将社区模型中的各类节点分别提取到
Set
集合,并针对不同类别的
Set
集合中的每一个点从随机生成的点数据中不放回的抽取一个点
id
形成一个
Map
映射集合,其中,
Map
映射集合中的键为社区模型中的点
id

Map
映射集合中的值为模拟生成的点
id

再次遍历社区模型数据,对每种类别的点进行模拟点数据的替换

[0008]进一步的,从所述社区数据中抽取边数据,包括:从已经生成的社区数据中根据业务抽取对应列数的数据去重后即得到对应类别的边数据

[0009]进一步对,还包括:统计抽取的边数据量,并判断抽取的边数据量是否为各社区类别中各类边数量与各类社区数量的乘积之和;响应于判断结果为是,则所述抽取的边数据量为准确的;响应于判断结果为否,则所述抽取的边数据量为不准确的

[0010]第二方面,提供了一种基于社区模型的图数据库的数据生成装置,包括:第一生成模块,用于根据点数据量要求,随机生成不重复的符合数据量要求的点数据;分析模块,用于通过对社区模型进行特征分析来获取社区特征;第二生成模块,用于根据社区模型和社区特征生成社区数据;抽取模块,用于从所述社区数据中抽取边数据

[0011]进一步的,还包括校验模块,用于统计抽取的边数据量,并判断抽取的边数据量是否为各社区类别中各类边数量与各类社区数量的乘积之和;响应于判断结果为是,则所述抽取的边数据量为准确的;响应于判断结果为否,则所述抽取的边数据量为不准确的

[0012]第三方面,提供了一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面中的任意一种实现方式中方法的步骤

[0013]第四方面,提供了一种电子设备,所述电子设备包括处理器

存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中的任意一种实现方式中的方法

[0014]本申请具有如下有益效果:本申请可以保证生成的图数据具有一定的社区真实性,符合一定的业务领域特性,在做功能和性能测试时可以针对该领域做验证,基于业务领域实际社区模型进行图数据生成,可以模拟真实性数据用于验证图数据库的查询能力和图计算的算法能力,并且在生成社区模型时,采用基础数值和节点映射的方式直接进行社区数据重生成,最大程度的保证数据社区特征的完备性

附图说明
[0015]构成本申请的一部分的附图用于来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定

[0016]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0017]图1是本申请实施例1的基于社区模型的图数据库的数据生成方法的流程图;图2是本申请实施例2的基于社区模型的图数据库的数据生成装置的结构框图;
图3是本申请实施例4的电子设备的内部结构示意图

[0018]附图标记:
100、
第一生成模块;
200、
分析模块;
300、
第二生成模块;
400、
抽取模块;
500、
校验模块

具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围

[0020]实施例1[0021]本申请实施例1所涉及的一种基于社区模型的图数据库的数据生成方法,包括:根据点数据量要求,随机生成不重复的符合数据量要求的点数据;通过对社区模型进行特征分析来获取社区特征;根据社区模型和社区特征生成社区数据;从所述社区数据中抽取边数据,该方法可以保证生成的图数据具有一定的社区真实性,符合一定的业务领域特性,在做功能和性能测试时可以针对该领域做验证,基于业务领域实际社区模型进行图数据生成,可以模拟真实性数据用于验本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于社区模型的图数据库的数据生成方法,其特征在于,包括:根据点数据量要求,随机生成不重复的符合数据量要求的点数据;通过对社区模型进行特征分析来获取社区特征;根据社区模型和社区特征生成社区数据;从所述社区数据中抽取边数据
。2.
根据权利要求1所述的基于社区模型的图数据库的数据生成方法,其特征在于,根据点数据量要求,随机生成不重复的符合数据量要求的点数据,包括:根据每种类别点数据量要求和并发度要求,确定每个并发线程中需要负责生成的数据量;对每个点生成对应的属性数据,并对每条属性数据按照一定的基础数值按顺序递增,生成点的
id

。3.
根据权利要求1所述的基于社区模型的图数据库的数据生成方法,其特征在于,通过对社区模型进行特征分析来获取社区特征,包括:对给定的真实社区模型进行特征分析,统计社区内各类节点的数量和各类边的数量
。4.
根据权利要求1所述的基于社区模型的图数据库的数据生成方法,其特征在于,根据社区模型和社区特征生成社区数据,包括:遍历社区模型数据,将社区模型中的各类节点分别提取到
Set
集合,并针对不同类别的
Set
集合中的每一个点从随机生成的点数据中不放回的抽取一个点
id
形成一个
Map
映射集合,其中,
Map
映射集合中的键为社区模型中的点
id

Map
映射集合中的值为模拟生成的点
id
;再次遍历社区模型数据,对每种类别的点进行模拟点数据的替换
。5.
根据权利要求3所述的基于社区...

【专利技术属性】
技术研发人员:王昌圆
申请(专利权)人:杭州悦数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1