【技术实现步骤摘要】
一种可保持janusGraph数据一致性的分布式高效并行加载方法
[0001]本专利技术属于分布式图数据库领域,具体是一种可保持janusGraph数据一致性的分布式高效并行加载方法。
技术介绍
[0002]随着计算机技术的不断发展和信息化程度的不断提高,数据量在迅速增长,数据结构也在逐渐复杂化,传统的关系型数据库在很多场景下难以使用,因此诞生了各种非关系型数据库。
[0003]图数据库是非关系型数据库中的一种,擅长存储各种关系网络数据,在众多图数据库中,janusGraph是一个非常优秀的分布式图数据库,具有极高的可扩展性,通过扩大集群大小线性地提高图存储的上限,可支持超级大的图的存储检索。
[0004]在很多场景下janusGraph都是一个非常优秀好用的图数据库,但是在处理实时数据时,为了保证数据的一致性只能进行单节点,单进程,单线程加载,因此实时数据加载效率具有很大局限性,不能满足大流量实时数据的加载需求。
技术实现思路
[0005]针对图数据库在处理大流量实时数据时的低效不安全性的问 ...
【技术保护点】
【技术特征摘要】
1.一种可保持janusGraph数据一致性的分布式高效并行加载方法,其特征在于,具体步骤如下:步骤一、构建包括集群管理模块、消息队列模块、数据处理模块、点处理模块和分布式索引模块的高效加载分布式结构;集群管理模块负责给各节点分配要处理的队列任务区间,消息队列模块负责数据的跨节点传输,数据处理模块与分布式索引模块配合工作,负责从消息队列获取图数据并进行加载,点处理模块和分布式索引模块配合工作,负责从消息队列获取点数据并进行处理;步骤二、初始化消息队列模块,创建两个空的消息队列:第一分布式队列和第二分布式队列;步骤三、终端用户调用API接口,从CSV文件或其他消息队列中实时接收数据,并解析后存入第一分布式队列中;解析是指将接收的数据解析为json结构;每条数据由点边点结构组成,具体包括:起始点的属性,终止点的属性,边的属性,起始点的标签,终止点的标签,边的标签,起始点的唯一标志和终止点的唯一标志;步骤四、数据处理模块从第一分布式队列中逐条取出数据,调用分布式索引模块将数据加载或更新到图数据库中;分布式索引模块中存储的是每个点的唯一标志和该点ID之间的映射关系;具体为:首先,针对当前数据a,根据起始点a1和终止点b1的唯一标志,利用分布式索引模块找到两个点的映射ID;然后,判断两个ID是否都存在于图数据库中,如果是,将当前数据a的所有信息更新到图数据库中;否则,数据a重新回到第一分布式队列中继续排队,并将未获取到ID的点对应的唯一标志放入第二分布式队列的指定分区中;步骤五...
【专利技术属性】
技术研发人员:谢铭,蒲路,孟宪文,
申请(专利权)人:北京赛思信安技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。