一种千亿级知识图库的数据加载、管理、检索系统技术方案

技术编号:22167027 阅读:122 留言:0更新日期:2019-09-21 10:37
本发明专利技术公开了一种干亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中:使用图数据加载方法,能够以高吞吐量的方式转换和加载图数据到知识图库中;使用图数据管理方法,使得图库在海量数据下,具备速批量删除数据;同时加速图的检索;使用图数据检索方法,使得图库具备图关联扩展/数据任意维度/全文检索的能力;同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。

A Data Loading, Management and Retrieval System for Billion-Level Knowledge Map Database

【技术实现步骤摘要】
一种千亿级知识图库的数据加载、管理、检索系统
本专利技术涉及计算机
,尤其涉及一种千亿级知识图库的数据加载、管理、检索系统。
技术介绍
图数据库是基于图关系(Graph,非图像)模型建立的数据库,其中存储的数据以点和边的方式组织。例如社交网络中的好友关系,其中每个人以点表示、好友关系以边表示。图库能够提供常规关系数据库的二维关系查询功能(例如查询与某个人是好友的人),还能够提供图遍历(例如某个点的N跳邻居)、两点之间的最短路径、全文检索等功能。市面上常见的图数据库有Neo4j、GraphX等,每一种数据库有自己的特色。Ne04j支持快速的数据更新,GraphX适合高吞吐量的访问与计算。在干亿数据情况下,如何兼容考虑数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索,对图数据是一种挑战,现有技术没有一种完善的解决方案。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种千亿级知识图库的数据加载、管理、检索系统,有效解决现有技术中数据快速更新、高吞吐量计算与加载、图关联扩展/数据任意维度/全文检索问题。为实现上述目的,本专利技术提供了一种干亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中图数据加载子系统包括:S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;图数据管理子系统包括:S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;图数据检索子系统包括:S31、图关联扩展模块,提供关联关系的扩展查询服务;S32、图数据检索模块,提供全文检索和复杂条件的检索服务。进一步地,所述图数据提取模块包括:S121、图数据提取单元,用于提取出需要构建的点/边对象,每一次构建,拥有一个唯一的批编号,该编号下包含的输出数据有点数据/边数据;该批下的数据输出到分布式文件系统中;S122、图关联扩展索引提取单元,基于图数据提取单元输出的点数据/边数据,计算图关联扩展索引,生成图关联索引数据,并输出到分布式文件系统中;该批次的索引使用图数据提取单元中的批编号。进一步地,所述图数据加载模块包括:S131、图数据元数据管理单元,管理图库中对外提供服务的图数据;S132、点/边数据导入任务编排单元,用于生成数据导入任务,包含的任务有:1、点/边数据导入任务计划;2、图关联扩展索引数据导入计划;3、元数据管理更新计划;4、点/边全文索引数据导入计划;S133、数据的执行单元,按照编排的计划,执行数据的导入任务,数据导入后称为segment,包含点的segment/边的segment/图关联扩展的segment,并记录segment与批的对应关系到图数据元数据管理单元中。进一步地,所述图数据合并模块包括:图数据自动合并单元,依据segment的生成日期时间顺序、segment的合并策略,顺序地执行合并,合并步骤为:1、判定现有的segment是否有7天内的segment,有则合并;2、没有满足的,跳转步骤4;3、继续执行步骤1;4、判定是否有满足28天的segment,有则合并;5、没有满足的,自动合并结束;6、继续执行步骤5;图数据手动合并单元,手动选择多个segment合并,所选择的segment为连续时间的segment。进一步地,所述图关联扩展模块包括:S311、简单条件的图关联扩展查询单元,通过查询图关联索引数据获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的图关联所有查询请求;2、顺序执行关联查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、依据查询汇聚结果,查询点/边数据,整合后,返回完整的结果;S312、自定义属性条件过滤的扩展查询单元,通过查询点/边的全文索引获取结果,步骤包括:1、依据查询条件,生成查询执行计划,计划包含多个的独立的全文索引查询请求;2、顺序执行查询请求;3、在内存中汇聚查询结果,再次执行查询请求,再在内存中汇聚结果,一直重复,直至查询计划执行完成;4、返回完整的结果。进一步地,所述图数据检索模块包括:S321、聚合统计单元,提供基于属性的聚合统计查询功能,通过点/边全文索引数据获取;S322、全文检索单元,提供点/边数据的全文检索查询功能,通过点/边全文索引数据获取;S323、属性检索单元,提供点/边数据的中,基于属性条件过滤的查询功能,通过点/边全文索引数据获取。本专利技术的有益效果是:1、使用图数据加载方法,能够以高吞吐量的方式转换和加载图数据到知识图库中;2、使用图数据管理方法,使得图库在海量数据下,具备速批量删除数据;同时加速图的检索;3、使用图数据检索方法,使得图库具备图关联扩展/数据任意维度/全文检索的能力;同时具备基于数据来源的扩展和基于复杂条件关系(属性的等于/包含/大于/小于/不包含)扩展与查询的能力。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术的总体结构示意图。具体实施方式实施例1如图1所示,一种千亿级知识图库的数据加载、管理、检索系统,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中图数据加载子系统包括:S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;图数据管理子系统包括:S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;支持segment的多次合并,即合并后的segment,可以再次被合并为新的segment。合并过程中,遵守规范包括:1、同一时刻,同一类的segment,只有一个合并任务在运行;2、先生成合并后的新segment,点segment、边的segment和图关联扩展索引的segment;3、锁定图库的读锁,即阻断读操作;4、更新图数据元数据管理单元的数据;5、释放图库的读锁,即允许读操作;S22、图数据删除模块,根据图数据元数据管理单本文档来自技高网...

【技术保护点】
1.一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中图数据加载子系统包括:S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;图数据管理子系统包括:S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;图数据检索子系统包括:S31、图关联扩展模块,提供关联关系的扩展查询服务;S32、图数据检索模块,提供全文检索和复杂条件的检索服务。...

【技术特征摘要】
1.一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,包括图数据加载子系统、图数据管理子系统、图数据检索子系统,其中图数据加载子系统包括:S11、数据读取模块,将外部数据源读取到内部的支持的文件系统中;S12、图数据提取模块,依据外部数据结构、点/边的数据描述、图数据提取映射描述,提取生成点数据/边数据和图关联扩展索引数据;S13、图数据加载模块,将生成的图和图关联扩展索引数据导入图库中;图数据管理子系统包括:S21、图数据合并模块,将现有的segment合并,包含点segment/边的segment/图关联扩展索引的segment,合并成功后,更新图数据元数据管理单元中的数据;S22、图数据删除模块,根据图数据元数据管理单元中批次的映射信息,删除图库中该批次下包含的所有数据,包含内部原始数据和图库存储引擎内部的数据;其中图数据包括点的segment/边的segment/点的全文索引数据/边的全文索引数据/图关联扩展索引的segment;S23、图数据重做模块,选择某个批次,将该批次下图库中的数据重做,重做的数据包括点数据、边数据、点的全文索引,数据、边的全文索引,数据、图关联扩展索引数据;图数据检索子系统包括:S31、图关联扩展模块,提供关联关系的扩展查询服务;S32、图数据检索模块,提供全文检索和复杂条件的检索服务。2.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据提取模块包括:S121、图数据提取单元,用于提取出需要构建的点/边对象,每一次构建,拥有一个唯一的批编号,该编号下包含的输出数据有点数据/边数据;该批下的数据输出到分布式文件系统中;S122、图关联扩展索引提取单元,基于图数据提取单元输出的点数据/边数据,计算图关联扩展索引,生成图关联索引数据,并输出到分布式文件系统中;该批次的索引使用图数据提取单元中的批编号。3.如权利要求1所述的一种千亿级知识图库的数据加载、管理、检索系统,其特征在于,所述图数据加载模块包括:S131、图数据元数据管理单元,管理图库中对外提供服务的图数据;S132、点/边数据导入任务编排单元,用于生成数据导入任务,包含的任务有:1、点/边数据导入任务计划;2、图关联扩展索引数据导入计划;3、元数据管理更...

【专利技术属性】
技术研发人员:吕志军刘成军
申请(专利权)人:南京智慧图谱信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1