一种基于混合数据库的知识图谱组织查询方法技术

技术编号:20160356 阅读:23 留言:0更新日期:2019-01-19 00:13
本发明专利技术一种基于混合数据库的知识图谱组织查询方法,包括:获取预设数据集中的三元组集合;从三元组集合中区分出实体三元组集合和关系三元组集合;在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;针对带实体的知识库构建索引,得到带索引和实体的知识库;在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;在MySQL上进行实体歧义信息的存储,构建实体歧义词表;将构建的实体歧义词表存储到带索引、实体和关系的知识库,得到完整的知识库。本发明专利技术结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。

【技术实现步骤摘要】
一种基于混合数据库的知识图谱组织查询方法
本专利技术具体涉及一种基于混合数据库的知识图谱组织查询方法。
技术介绍
知识图谱作为一种高效的信息组织和检索方式,自Google2012年提出以来,就掀起了一股知识图谱学习热潮。实体抽取、属性抽取、实体间关系抽取、知识推理、知识表示学习等方面更是成为了研究的热点,但是却很少有文献提及如何进行图谱的底层存储,以及该如何结合存储设计查询的接口,或者说虽然提及了,但是对这方面内容的描述却不完整,太过零散。存储与查询通常都是作为一个整体而出现,高效的查询需要好的存储结构来支持,而存储则需要结合查询的特点来不断进行优化。传统的数据库,如关系型数据库。能够很好的根据知识图谱Schema层的信息进行聚类存储,访问某一类别的数据时效率很高,但是换言之,在进行存储之前,需要事先知道数据的Schema层次信息,并且Schema一旦确定下来,就很难再做大的变动,然而对于大规模开放领域的知识图谱而言,实体和关系的种类通常多而复杂,很难确定图谱中的Schema层次信息;其次,在面对多表连接(通常连接深度大于2)查询之时,关系型数据库也显得力不从心,但是进行这样的查询操作却是知识图谱的一个很基本的需求。对于NOSQL数据库而言,如主键值数据库、列族存储数据库、面向文档数据库、图形数据库等。其中图数据库的数据结构与知识图谱最为贴近,表现为由大量的实体节点和实体间的关联关系组成的巨大的图结构模型,它能很好的表现出具体的或者抽象的事物之间的联系;同时能够很好的满足图的局部访问特性的需求。但是,对于图谱中不满足图数据结构的信息,比如实体之间的歧义信息该如何进行存储,则成为了一个还需解决的问题。
技术实现思路
本专利技术要解决的技术问题在于,针对上述目前传统关系型数据库和图数据库技术的不足,提供一种基于混合数据库的知识图谱组织查询方法解决上述问题。一种基于混合数据库的知识图谱组织查询方法,包括:步骤1、获取预设数据集中的三元组集合;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。进一步的,步骤2中所述预设数据集指对实体和关系的一般性描述,为结构化数据、非结构化数据和半结构化数据中的任意一种或多种的组合。进一步的,步骤3中具体的存储方法是:从实体三元组集合中区分出不同的实体节点并进行存储。进一步的,步骤5中具体的存储方法是:从关系三元组集合中区分出头尾实体节点,然后在步骤4得到的带索引和实体的知识库中查询头尾实体,若命中则为头尾节点构建关系,否则关系作废。进一步的,步骤6中所述实体歧义是指实体之间存在的一词多义以及同义词的情况。进一步的,所述MySQL+Neo4j的两级查询结构具体包括:(1)输入待查询的实体,首先需要在MySQL数据库中进行SQL查询,判断查询是否命中:若SQL查询命中,判定待查询的实体存在歧义,将其对应的所有歧义实体返回给用户,并对实体进行消歧,将消歧后的实体输入到Neo4j数据库中进行CQL查询;若SQL查询不命中,判定待查询的实体不存在歧义,直接将待查询的实体传输至Neo4j数据库中进行CQL查询;(2)将待查询的实体或消歧后的实体作为Neo4j数据库的输入进行CQL查询,得到完整的实体信息,作为最后的输出。进一步的,在SQL查询中判断查询是否命中的方法是:将待查询的实体与步骤6得到的实体歧义词表进行对比,若存在匹配,查询命中,反之则查询不命中。本专利技术的优势在于:结合关系型数据库和图数据库各自的优点,提出基于混合数据库的知识图谱组织方法,适用于一般的大规模开放领域知识图谱,在优化知识图谱存储结构的同时改善了知识图谱的查询效率。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1为本专利技术的一种基于混合数据库的知识图谱组织查询方法流程图;图2为本专利技术的MySQL+Neo4j的两级查询结构图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。如图1所示,一种基于混合数据库的知识图谱组织查询方法,包括:步骤1、获取预设数据集中的三元组集合,预设数据集指对实体和关系的一般性描述,包括结构化数据、非结构化数据和半结构化数据;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,从实体三元组集合中区分出不同的实体节点并进行存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库步骤5、在Neo4j上进行关系三元组集合的存储,从关系三元组集合中区分出头尾实体节点,然后在步骤4得到的带索引和实体的知识库中查询头尾实体,若命中则为头尾节点构建关系,否则关系作废,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义信息的存储,构建实体歧义词表,实体歧义是指实体之间存在的一词多义以及同义词的情况。;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库。步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。MvSQL+Neo4j的两级查询的方法具体是:首先在MvSOL中查询实体是否存在实体歧义信息,若存在则消歧过后再进入Neo4j中查询,否则直接在Neo4j中进行查询。如图2所示,查询过程如下:1、SQL查询(如图2中标号1所示)因为无法知道输入的实体名是不是存在歧义的情况,故输入的实体名首先需要在MySQL数据库中进行SQL查询,即将输入的实体名与图2中的歧义词表的第一列进行匹配(歧义词表的第一列为实体名,第二列为存在歧义的实体,如键值对<S1,<E1,E2>>表示实体名S1存在歧义,存在歧义的实体E1和E2指向同一字符串S1),若命中,则会返回指向同一字符串的多个实体。根据查询命中与否,分以下两种情况进行处理:1)SQL查询命中:即输入的实体名存在歧义(如图2所示,输入的实体名Sm存在歧义,故查询命中后返回指向同一字符串Sm的歧义实体Ek~Ek+n),将输入对应的所有歧义实体Ek~Ek+n返回给用户,并对实体进行消歧(如图2中标号2所示,由具体的应用场景决定具体的消歧方式),将消歧后的实体(Ek+i)输入到Neo4j数据库中进行CQL查询(如图2中标号3所示)。2)SQL查询不命中:即输入的实体名不存在歧义,直接进行CQL查询。2、CQL查询(即图2中对知识库的查询)无论SQL查询是否命中,最终得到的都只是本文档来自技高网
...

【技术保护点】
1.一种基于混合数据库的知识图谱组织查询方法,其特征在于,包括:步骤1、获取预设数据集中的三元组集合;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。

【技术特征摘要】
1.一种基于混合数据库的知识图谱组织查询方法,其特征在于,包括:步骤1、获取预设数据集中的三元组集合;步骤2、从步骤1中获取的三元组集合中区分出实体三元组集合和关系三元组集合;步骤3、在Neo4j上进行实体三元组集合的存储,得到带实体的知识库;步骤4、针对带实体的知识库中存储的实体节点构建索引,得到带索引和实体的知识库;步骤5、在Neo4j上进行关系三元组集合的存储,得到带索引、实体和关系的知识库;步骤6、在MySQL上进行实体歧义的存储,构建实体歧义词表;步骤7、将步骤6中构建的实体歧义词表存储到步骤5得到的带索引、实体和关系的知识库,得到完整的知识库;步骤8、输入待查询的实体,采用MySQL+Neo4j的两级查询的方法在步骤7得到的完整的知识库中进行查询,得到完整的实体信息。2.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤2中所述预设数据集指对实体和关系的一般性描述,为结构化数据、非结构化数据和半结构化数据中的任意一种或多种的组合。3.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,其特征在于,步骤3中具体的存储方法是:从实体三元组集合中区分出不同的实体节点并进行存储。4.根据权利要求1所述的一种基于混合数据库的知识图谱组织查询方法,...

【专利技术属性】
技术研发人员:李新川姚宏陈仁谣李圣文梁庆中郑坤
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1