【技术实现步骤摘要】
一种Janusgraph数据快速批量装载的方法
[0001]本专利技术涉及计算机科学大数据
,特别涉及一种分布式图数据库Janusgraph数据快速批量装载的方法。
技术介绍
[0002]图(Graph)是表示实体与实体之间的关系的数学逻辑对象,在数学中被表示为一个G=(V,E)的二元组,其自身由N个顶点(V=vertex)和M个边(E=edge)构成,每个顶点对应着多个边(≤M),每个边又连接着两个顶点,边可以存在方向,如果图所包含的边带有方向,则称为有向图,否则为无向图。
[0003]图数据库是NoSQL数据库的一种类型,是一种非关系型数据库,它应用图理论存储实体之间的关系信息,最常见例子就是社会网络中人与人之间关系。关系型数据库用于存储“关系型”数据的效果并不好,其查询复杂、缓慢、超出预期,而图形数据库的独特设计恰恰弥补了这个缺陷。
[0004]Janusgraph是一种开源分布式图数据库,因其通用性较好、性能高、开房源代码等优势,在图数据分析领域被广泛使用。Janusgraph支持以Cassan ...
【技术保护点】
【技术特征摘要】
1.一种Janusgraph数据快速批量装载的方法,其特征在于:包括以下步骤:数据准备阶段:将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取,并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系;HBase数据装载阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,按照Janusgraph在HBase数据库中的存储结构与编码方式构建第一RDD数据集,并将第一RDD数据集以HFile文件形式装载到Janusgraph存储对应的HBase数据库中;Elasticsearch索引构建阶段:使用Spark计算引擎并行读取Hive表中的顶点与边,抽取需要索引的顶点或边的属性,按照Janusgraph在Elasticsearch索引的存储结构构建第二RDD数据集,并将第二RDD数据集并行写入到Elasticsearch索引。2.根据权利要求1所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述将需要批量装入图的顶点和边的数据保存到Hive表进行分片存储,以便于Spark计算引擎进行并行读取的步骤,包括:将需要批量装入图的数据划分为顶点和边,分别形成顶点Hive表和边Hive表,在每张顶点Hive表和边Hive表上进行分片存储;使用Spark计算引擎对所有顶点Hive表的所有顶点分配全局唯一顶点ID,并将所有边Hive表的所有边的关联顶点替换为分配的顶点ID,再对所有边Hive表的所有边分配全局唯一边ID。3.根据权利要求2所述的一种Janusgraph数据快速批量装载的方法,其特征在于:所述并创建Janusgraph待装载图数据的Schema结构,以及配置Hive表与Schema结构的映射关系的步骤,包括:创建Janusgraph待装载图数据的Schema结构,所述Schema结构包含属性、顶点标签、边标签、Mixed索引;创建配置文件,配置顶点与边的Hive表名、字段与Janusgraph的标签、属性的映射关系。4.根据权利要求3所述的一种Ja...
【专利技术属性】
技术研发人员:马杲灵,游飞龙,张林林,汪睿铭,陈雪,石尧,董博,廖海峰,
申请(专利权)人:贵州数联铭品科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。