一种千亿级知识图库的数据加载、管理、检索系统技术方案

技术编号：22167027 阅读：122 留言：0更新日期：2019-09-21 10:37

本发明专利技术公开了一种干亿级知识图库的数据加载、管理、检索系统，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中：使用图数据加载方法，能够以高吞吐量的方式转换和加载图数据到知识图库中；使用图数据管理方法，使得图库在海量数据下，具备速批量删除数据；同时加速图的检索；使用图数据检索方法，使得图库具备图关联扩展/数据任意维度/全文检索的能力；同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。

A Data Loading, Management and Retrieval System for Billion-Level Knowledge Map Database

全部详细技术资料下载

【技术实现步骤摘要】
一种千亿级知识图库的数据加载、管理、检索系统
本专利技术涉及计算机
，尤其涉及一种千亿级知识图库的数据加载、管理、检索系统。
技术介绍
图数据库是基于图关系(Graph，非图像)模型建立的数据库，其中存储的数据以点和边的方式组织。例如社交网络中的好友关系，其中每个人以点表示、好友关系以边表示。图库能够提供常规关系数据库的二维关系查询功能(例如查询与某个人是好友的人)，还能够提供图遍历(例如某个点的N跳邻居)、两点之间的最短路径、全文检索等功能。市面上常见的图数据库有Neo4j、GraphX等，每一种数据库有自己的特色。Ne04j支持快速的数据更新，GraphX适合高吞吐量的访问与计算。在干亿数据情况下，如何兼容考虑数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索，对图数据是一种挑战，现有技术没有一种完善的解决方案。
技术实现思路
有鉴于现有技术的上述缺陷，本专利技术所要解决的技术问题是提供一种千亿级知识图库的数据加载、管理、检索系统，有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。为实现上述目的，本专利技术提供了一种干亿级知识图库的数据加载、管理、检索系统，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中图数据加载子系统包括：S11、数据读取模块，将外部数据源读取到内部的支持的文件系统中；S12、图数据提取模块，依据外部数据结构、点/边的数据描述、图数据提取映射描述，提取生成点数据/边数据和图关联扩展索引数据；S13、图数据加载模块，将生成的图和图关联扩展索引数据导入图库中；图...

【技术保护点】
1.一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中图数据加载子系统包括：S11、数据读取模块，将外部数据源读取到内部的支持的文件系统中；S12、图数据提取模块，依据外部数据结构、点/边的数据描述、图数据提取映射描述，提取生成点数据/边数据和图关联扩展索引数据；S13、图数据加载模块，将生成的图和图关联扩展索引数据导入图库中；图数据管理子系统包括：S21、图数据合并模块，将现有的segment合并，包含点segment/边的segment/图关联扩展索引的segment，合并成功后，更新图数据元数据管理单元中的数据；S22、图数据删除模块，根据图数据元数据管理单元中批次的映射信息，删除图库中该批次下包含的所有数据，包含内部原始数据和图库存储引擎内部的数据；其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment；S23、图数据重做模块，选择某个批次，将该批次下图库中的数据重做，重做的数据包括点数据、边数据、点的全文索引，数据、边的全文索引，数据、图关联...

【技术特征摘要】
1.一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，包括图数据加载子系统、图数据管理子系统、图数据检索子系统，其中图数据加载子系统包括：S11、数据读取模块，将外部数据源读取到内部的支持的文件系统中；S12、图数据提取模块，依据外部数据结构、点/边的数据描述、图数据提取映射描述，提取生成点数据/边数据和图关联扩展索引数据；S13、图数据加载模块，将生成的图和图关联扩展索引数据导入图库中；图数据管理子系统包括：S21、图数据合并模块，将现有的segment合并，包含点segment/边的segment/图关联扩展索引的segment，合并成功后，更新图数据元数据管理单元中的数据；S22、图数据删除模块，根据图数据元数据管理单元中批次的映射信息，删除图库中该批次下包含的所有数据，包含内部原始数据和图库存储引擎内部的数据；其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment；S23、图数据重做模块，选择某个批次，将该批次下图库中的数据重做，重做的数据包括点数据、边数据、点的全文索引，数据、边的全文索引，数据、图关联扩展索引数据；图数据检索子系统包括：S31、图关联扩展模块，提供关联关系的扩展查询服务；S32、图数据检索模块，提供全文检索和复杂条件的检索服务。2.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据提取模块包括：S121、图数据提取单元，用于提取出需要构建的点/边对象，每一次构建，拥有一个唯一的批编号，该编号下包含的输出数据有点数据/边数据；该批下的数据输出到分布式文件系统中；S122、图关联扩展索引提取单元，基于图数据提取单元输出的点数据/边数据，计算图关联扩展索引，生成图关联索引数据，并输出到分布式文件系统中；该批次的索引使用图数据提取单元中的批编号。3.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统，其特征在于，所述图数据加载模块包括：S131、图数据元数据管理单元，管理图库中对外提供服务的图数据；S132、点/边数据导入任务编排单元，用于生成数据导入任务，包含的任务有：1、点/边数据导入任务计划；2、图关联扩展索引数据导入计划；3、元数据管理更...

【专利技术属性】
技术研发人员：吕志军，刘成军，
申请(专利权)人：南京智慧图谱信息技术有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人