一种可保持janusGraph数据一致性的分布式高效并行加载方法技术

技术编号：28146544 阅读：26 留言：0更新日期：2021-04-21 19:31

本发明专利技术公开了一种可保持janusGraph实时数据一致性的高效并行加载方法，属于分布式图数据库领域，首先构建分布式结构；创建两个空的分布式队列；然后，实时接收数据并解析后存入队列一中；数据处理模块逐条取出，调用分布式索引模块中存在对应ID的数据加载到图数据库中，并将无法调用ID的点的唯一标志存入队列二中，点处理模块判断能否获取各标志对应的ID，如果能，则继续获取下一个进行判断；否则，将各标志加载到图数据库中，并产生对应的ID；同时将S与ID的对应关系保存；集群管理模块找寻主节点，并对各子节点分发任务，各子节点并行处理各自的分布式队列分区中的数据。本发明专利技术保证数据一致性的同时提高实时数据的并行加载。载。载。

全部详细技术资料下载

【技术实现步骤摘要】
一种可保持janusGraph数据一致性的分布式高效并行加载方法

[0001]本专利技术属于分布式图数据库领域，具体是一种可保持janusGraph数据一致性的分布式高效并行加载方法。

技术介绍

[0002]随着计算机技术的不断发展和信息化程度的不断提高，数据量在迅速增长，数据结构也在逐渐复杂化，传统的关系型数据库在很多场景下难以使用，因此诞生了各种非关系型数据库。
[0003]图数据库是非关系型数据库中的一种，擅长存储各种关系网络数据，在众多图数据库中，janusGraph是一个非常优秀的分布式图数据库，具有极高的可扩展性，通过扩大集群大小线性地提高图存储的上限，可支持超级大的图的存储检索。
[0004]在很多场景下janusGraph都是一个非常优秀好用的图数据库，但是在处理实时数据时，为了保证数据的一致性只能进行单节点，单进程，单线程加载，因此实时数据加载效率具有很大局限性，不能满足大流量实时数据的加载需求。

技术实现思路

[0005]针对图数据库在处理大流量实时数据时的低效不安全性的问...

【技术保护点】

【技术特征摘要】
1.一种可保持janusGraph数据一致性的分布式高效并行加载方法，其特征在于，具体步骤如下：步骤一、构建包括集群管理模块、消息队列模块、数据处理模块、点处理模块和分布式索引模块的高效加载分布式结构；集群管理模块负责给各节点分配要处理的队列任务区间，消息队列模块负责数据的跨节点传输，数据处理模块与分布式索引模块配合工作，负责从消息队列获取图数据并进行加载，点处理模块和分布式索引模块配合工作，负责从消息队列获取点数据并进行处理；步骤二、初始化消息队列模块，创建两个空的消息队列：第一分布式队列和第二分布式队列；步骤三、终端用户调用API接口，从CSV文件或其他消息队列中实时接收数据，并解析后存入第一分布式队列中；解析是指将接收的数据解析为json结构；每条数据由点边点结构组成，具体包括：起始点的属性，终止点的属性，边的属性，起始点的标签，终止点的标签，边的标签，起始点的唯一标志和终止点的唯一标志；步骤四、数据处理模块从第一分布式队列中逐条取出数据，调用分布式索引模块将数据加载或更新到图数据库中；分布式索引模块中存储的是每个点的唯一标志和该点ID之间的映射关系；具体为：首先，针对当前数据a，根据起始点a1和终止点b1的唯一标志，利用分布式索引模块找到两个点的映射ID；然后，判断两个ID是否都存在于图数据库中，如果是，将当前数据a的所有信息更新到图数据库中；否则，数据a重新回到第一分布式队列中继续排队，并将未获取到ID的点对应的唯一标志放入第二分布式队列的指定分区中；步骤五...

【专利技术属性】
技术研发人员：谢铭，蒲路，孟宪文，
申请(专利权)人：北京赛思信安技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人