一种基于混合数据库的知识图谱组织查询方法技术

技术编号:20160356 阅读:36 留言:0更新日期:2019-01-19 00:13
本发明专利技术一种基于混合数据库的知识图谱组织查询方法,包括:获取预设数据集中的三元组集合;从三元组集合中区分出实体三元组集合和关系三元组集合;在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;针对带实体的知识库构建索引,得到带索引和实体的知识库;在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;在MySQL上进行实体歧义信息的存储,构建实体歧义词表;将构建的实体歧义词表存储到带索引、实体和关系的知识库,得到完整的知识库。本发明专利技术结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。

【技术实现步骤摘要】
一种基于混合数据库的知识图谱组织查询方法
本专利技术具体涉及一种基于混合数据库的知识图谱组织查询方法。
技术介绍
知识图谱作为一种高效的信息组织和检索方式,自Google2012年提出以来,就掀起了一股知识图谱学习热潮。实体抽取、属性抽取、实体间关系抽取、知识推理、知识表示学习等方面更是成为了研究的热点,但是却很少有文献提及如何进行图谱的底层存储,以及该如何结合存储设计查询的接口,或者说虽然提及了,但是对这方面内容的描述却不完整,太过零散。存储与查询通常都是作为一个整体而出现,高效的查询需要好的存储结构来支持,而存储则需要结合查询的特点来不断进行优化。传统的数据库,如关系型数据库。能够很好的根据知识图谱Schema层的信息进行聚类存储,访问某一类别的数据时效率很高,但是换言之,在进行存储之前,需要事先知道数据的Schema层次信息,并且Schema一旦确定下来,就很难再做大的变动,然而对于大规模开放领域的知识图谱而言,实体和关系的种类通常多而复杂,很难确定图谱中的Schema层次信息;其次,在面对多表连接(通常连接深度大于2)查询之时,关系型数据库也显得力不从心,但是进行这样的查询操本文档来自技高网...

【技术保护点】
1.一种基于混合数据库的知识图谱组织查询方法,其特征在于,包括:步骤1、获取预设数据集中的三元组集合;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;步骤8、输入待查询的实体,采用MySQ...

【技术特征摘要】
1.一种基于混合数据库的知识图谱组织查询方法,其特征在于,包括:步骤1、获取预设数据集中的三元组集合;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。2.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤2中所述预设数据集指对实体和关系的一般性描述,为结构化数据、非结构化数据和半结构化数据中的任意一种或多种的组合。3.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤3中具体的存储方法是:从实体三元组集合中区分出不同的实体节点并进行存储。4.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,...

【专利技术属性】
技术研发人员:李新川姚宏陈仁谣李圣文梁庆中郑坤
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1