内存受限情况下的大规模知识图谱的实时查询方法和系统技术方案

技术编号:19822214 阅读:24 留言:0更新日期:2018-12-19 14:51
本发明专利技术涉及数据处理技术领域,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统,该方法包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明专利技术大大的提高了单机知识图谱查询能力,能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。

【技术实现步骤摘要】
内存受限情况下的大规模知识图谱的实时查询方法和系统
本专利技术涉及数据处理
,尤其涉及一种内存受限情况下的大规模知识图谱的实时查询方法和系统。
技术介绍
万维网从诞生到现在已经形成了一个巨大的网络,构成其节点的是一个个的网页,网页之间通过超链接相互关联。基于万维网这种简单开放的技术,现代搜索引擎技术可以在巨大的网络空间中搜寻问题的相关网页。但是,由于移动互联网的发展,移动设备屏幕空间限制,用户期望搜索引擎可以得到精确地结果,而不是在搜索结果中逐一寻找。由于用户的这种精确性需求,单单是网页的存储已经不可以满足。为了解决这种需求XML(可扩展标记语言)、RDF(资源描述框架)以及OWL(网络本体语言)等被提出用于描述网络中的信息。XML通过为文档和数据内容添加标签,以便于数据交换;RDF通过(主语,谓词,对象)三元组的形式描述网络中资源的语义关系;OWL让描述这种概念成为可能,具有极强的表达能力以及解释能力。通过以上三种互联网信息描述方式知识图谱的概念在近些年被提出。网页中的实体以及实体属性被识别后放入知识图谱中存储,当用户发起搜索时,能够根据知识图谱中已知的节点准备理解用户意图,给出精准的回答。目前在基于RDF三元组形式的知识图谱的主要存储查询方法有:基于一个巨大的三元组表,基于多个由属性聚类表和基于多个由垂直分类划分表。基于一个巨大的三元组表的形式是将所有三元组存储在一个巨大的三列表格中,使用这种方法的主要系统有:RDF-3x和Hexastore;基于多个由属性聚类的表的形式有两种主要类型的表格:元组属性聚类表格和具有相似属性的对象的表格;基于多个由垂直分类划分的表等形式对每个属性都构建一个单独的2列表格。用来存储主语和对象。基于上述三种形式的RDF存储系统有Jena、Yars2、Sesame2.0、SW-store、EDF-3x、x-RDF-3x、Hexastore、gStore等等。现有的RDF存储查询系统例如Jena、Yars2和Sesame2.0在较大的RDF数据集上效果差。而SW-store、EDF-3x、x-RDF-3x以及Hexastore通过使用映射字典的方式解决了在较大的RDF数据集的问题,却只能支持固定的SparQL语言。并且大部分目前的方法不能快速的解决RDF数据在线更新的问题。例如基于多个由属性聚类表的形式的系统Jena,如果要在其数据集上更新数据的属性信息则需要重新聚类和重新构建属性表。在SW-store系统中由于更新需要重写很多的列,其更新代价也是相当昂贵的。虽然使用了“溢出表+批量写”的方式也很难被需要实时性高的应用采用。并且很多RDF数据趋向于非严格结构性,例如在同一个类型的数据中并非都具有相同的属性。这种非严格的结构性,有利于数据的集成但是对于很多经典的用关系型方法加速数据综合查询处理。gStore虽然采用了T-index的方法解决了上面的部分问题,但是单机支持数据集大小受限于T-index结构,仅可支持十亿三元组规模的RDF知识图谱的数据管理任务。然而随着人类知识更新逐渐变大,知识图谱规模也在相应的增加,其大小远超过十亿元组。普通计算设备的计算能力却远跟不上知识图谱增长速率,普通用户在其上做查询处理越来越困难。例如freebase约380G,目前普通用户内存在8G左右,普通PC用户在其上直接做查询将产生大量的I/O操作,极大的浪费用户时间。然而大多数普通用户并不需要十分精确的结果,只需要查询程序给出近似解即可。随着近似查询处理技术的兴起,越来越多的研究结果表明:大多数情况下近似结果即可满足用户需求,并可以大量节约用户计算时间,降低对计算设备的要求。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术中的以上一个或多个缺陷,提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统。为了解决上述技术问题,本专利技术提供了内存受限情况下的大规模知识图谱的实时查询方法,包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。可选地,所述对原始知识图谱进行处理分析得到倒排文件哈希列表,包括:提取原始知识图谱中先词汇再偏移形式的元组信息;将提取的所述元组信息转换为先词汇再偏移量形式;对先词汇再偏移量形式的元组信息根据词汇进行排序,得到倒排文件;对得到的倒排文件进行哈希处理,得到倒排文件哈希列表。可选地,所述基于原始知识图谱构建多级结构索引,包括:对原始知识图谱的初步结构发现结果进行数据分类、清洗以及简化数据表示得到知识图谱数据分类简化结果;基于知识图谱数据分类简化结果提取底层结构节点;对所述知识图谱数据分类简化结果进一步提取,实现上级结构索引。可选地,所述对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图的步骤包括:接收用户输入的查询语句Q、返回元组个数下限min、返回元组个数上限max以及抽样比率δ;解析查询语句Q,得到需要查询的词汇集;对词汇集中每一个词汇,在倒排文件哈希列表中并行寻找对应磁盘索引集{S1,S2,……,Sn},并求取交集后得到磁盘索引交集S;判断磁盘索引交集S的长度是否小于返回元组个数下限min:是则对于磁盘索引交集S中的任一索引位置,将该索引及其位置信息作为一个节点加入结果子图中;否则,判断磁盘索引交集S的长度是否大于返回元组个数上限max时,是则令抽样数量为max,否则令抽样数量为磁盘索引交集S的长度与抽样比率δ的乘积,并且如果该抽样数量小于返回元组个数下限min时,令抽样数量为元组个数下限min;在确定抽样数量后对磁盘索引交集S进行半随机抽样,其中需要使用步骤S102获得的辅助抽样节点superNode的信息。将抽样得到的每个索引在多级结构索引及其位置信息加入到结构子图中。本专利技术还提供了一种内存受限情况下的大规模知识图谱的实时查询系统,包括:哈希列表建立单元、多级索引构建单元和搜索单元;所述哈希列表建立单元,用于对原始知识图谱进行处理分析得到倒排文件哈希列表;所述多级索引构建单元,用于基于原始知识图谱构建多级结构索引;;所述查询单元,用于对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。可选地,所述哈希列表建立单元用于执行以下步骤:提取原始知识图谱中先词汇再偏移形式的元组信息;将提取的所述元组信息转换为先词汇再偏移量形式;对先词汇再偏移量形式的元组信息根据词汇进行排序,得到倒排文件;对得到的倒排文件进行哈希处理,得到倒排文件哈希列表。可选地,所述多级索引构建单元用于执行以下步骤:对原始知识图谱的初步结构发现结果进行数据分类、清洗以及简化数据表示得到知识图谱数据分类简化结果;基于知识图谱数据分类简化结果提取底层结构节点;对所述知识图谱数据分类简化结果进一步提取,实现上级结构索引。可选地,所述查询单元用于执行以下步骤:接收用户输入的查询语句Q、返回元组个数下限min、返回元组个数上限max以及抽样比率δ;解析查询语句Q,得到需要查询的词汇集;对词汇集中每一个词汇,在倒排文件哈希列本文档来自技高网
...

【技术保护点】
1.一种内存受限情况下的大规模知识图谱的实时查询方法,其特征在于,包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。

【技术特征摘要】
1.一种内存受限情况下的大规模知识图谱的实时查询方法,其特征在于,包括:对原始知识图谱进行处理分析得到倒排文件哈希列表;基于原始知识图谱构建多级结构索引;对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。2.根据权利要求1所述的方法,其特征在于,所述对原始知识图谱进行处理分析得到倒排文件哈希列表,包括:提取原始知识图谱中先词汇再偏移形式的元组信息;将提取的所述元组信息转换为先词汇再偏移量形式;对先词汇再偏移量形式的元组信息根据词汇进行排序,得到倒排文件;对得到的倒排文件进行哈希处理,得到倒排文件哈希列表。3.根据权利要求1所述的方法,其特征在于,所述基于原始知识图谱构建多级结构索引,包括:对原始知识图谱的初步结构发现结果进行数据分类、清洗以及简化数据表示得到知识图谱数据分类简化结果;基于知识图谱数据分类简化结果提取底层结构节点;对所述知识图谱数据分类简化结果进一步提取,实现上级结构索引。4.根据权利要求1~3中任一项所述的方法,其特征在于,所述对查询语句进行解析得到目标词汇,并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图的步骤,包括:接收用户输入的查询语句Q、返回元组个数下限min、返回元组个数上限max以及抽样比率δ;解析查询语句Q,得到需要查询的词汇集;对词汇集中每一个词汇,在倒排文件哈希列表中并行寻找对应磁盘索引集{S1,S2,……,Sn},并求取交集后得到磁盘索引交集S;判断磁盘索引交集S的长度是否小于返回元组个数下限min:是则对于磁盘索引交集S中的任一索引位置,将该索引及其位置信息作为一个节点加入结果子图中;否则,判断磁盘索引交集S的长度是否大于返回元组个数上限max时,是则令抽样数量为max,否则令抽样数量为磁盘索引交集S的长度与抽样比率δ的乘积,并且如果该抽样数量小于返回元组个数下限min时,令抽样数量为元组个数下限min;在确定抽样数量后对磁盘索引交集S进行半随机抽样,将抽样得到的每个索引在多级结构索引及其位置信息加入到结构子图...

【专利技术属性】
技术研发人员:王宏志万晓珑高宏
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1