一种Janusgraph数据快速批量装载的方法技术

技术编号：32530658 阅读：38 留言：0更新日期：2022-03-05 11:24

本发明专利技术涉及一种Janusgraph数据快速批量装载的方法，包括步骤：数据准备阶段：将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储，以便于Spark计算引擎进行并行读取，并创建Janusgraph待装载图数据的Schema结构，以及配置Hive表与Schema结构的映射关系；HBase数据装载阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，按照Janusgraph在HBase数据库中的存储结构与编码方式构建RDD数据集，并将RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中；Elasticsearch索引构建阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，抽取需要索引的顶点或边的属性，按照Janusgraph在Elasticsearch索引的存储结构构建RDD数据集，并将RDD数据集并行写入到Elasticsearch索引。并将RDD数据集并行写入到Elasticsearch索引。并将RDD数据集并行写入到Elasticsearch索引。

全部详细技术资料下载

【技术实现步骤摘要】
一种Janusgraph数据快速批量装载的方法

[0001]本专利技术涉及计算机科学大数据
，特别涉及一种分布式图数据库Janusgraph数据快速批量装载的方法。

技术介绍

[0002]图(Graph)是表示实体与实体之间的关系的数学逻辑对象，在数学中被表示为一个G＝(V，E)的二元组，其自身由N个顶点(V＝vertex)和M个边(E＝edge)构成，每个顶点对应着多个边(≤M)，每个边又连接着两个顶点，边可以存在方向，如果图所包含的边带有方向，则称为有向图，否则为无向图。
[0003]图数据库是NoSQL数据库的一种类型，是一种非关系型数据库，它应用图理论存储实体之间的关系信息，最常见例子就是社会网络中人与人之间关系。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷。
[0004]Janusgraph是一种开源分布式图数据库，因其通用性较好、性能高、开房源代码等优势，在图数据分析领域被广泛使用。Janusgraph支持以Cassandra、HBase等本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种Janusgraph数据快速批量装载的方法，其特征在于：包括以下步骤：数据准备阶段：将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储，以便于Spark计算引擎进行并行读取，并创建Janusgraph待装载图数据的Schema结构，以及配置Hive表与Schema结构的映射关系；HBase数据装载阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集，并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中；Elasticsearch索引构建阶段：使用Spark计算引擎并行读取Hive表中的顶点与边，抽取需要索引的顶点或边的属性，按照Janusgraph在Elasticsearch索引的存储结构构建第二RDD数据集，并将第二RDD数据集并行写入到Elasticsearch索引。2.根据权利要求1所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储，以便于Spark计算引擎进行并行读取的步骤，包括：将需要批量装入图的数据划分为顶点和边，分别形成顶点Hive表和边Hive表，在每张顶点Hive表和边Hive表上进行分片存储；使用Spark计算引擎对所有顶点Hive表的所有顶点分配全局唯一顶点ID，并将所有边Hive表的所有边的关联顶点替换为分配的顶点ID，再对所有边Hive表的所有边分配全局唯一边ID。3.根据权利要求2所述的一种Janusgraph数据快速批量装载的方法，其特征在于：所述并创建Janusgraph待装载图数据的Schema结构，以及配置Hive表与Schema结构的映射关系的步骤，包括：创建Janusgraph待装载图数据的Schema结构，所述Schema结构包含属性、顶点标签、边标签、Mixed索引；创建配置文件，配置顶点与边的Hive表名、字段与Janusgraph的标签、属性的映射关系。4.根据权利要求3所述的一种Ja...

【专利技术属性】
技术研发人员：马杲灵，游飞龙，张林林，汪睿铭，陈雪，石尧，董博，廖海峰，
申请(专利权)人：贵州数联铭品科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人