内存受限情况下的大规模知识图谱的实时查询方法和系统技术方案

技术编号：19822214 阅读：24 留言：0更新日期：2018-12-19 14:51

本发明专利技术涉及数据处理技术领域，提供了一种内存受限情况下的大规模知识图谱的实时查询方法及系统，该方法包括：对原始知识图谱进行处理分析得到倒排文件哈希列表；基于原始知识图谱构建多级结构索引；对查询语句进行解析得到目标词汇，并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。本发明专利技术大大的提高了单机知识图谱查询能力，能够在内存极度受限的情况下给出既满足用户时间需求又满足用户精度需求的结果集。

全部详细技术资料下载

【技术实现步骤摘要】
内存受限情况下的大规模知识图谱的实时查询方法和系统
本专利技术涉及数据处理
，尤其涉及一种内存受限情况下的大规模知识图谱的实时查询方法和系统。
技术介绍
万维网从诞生到现在已经形成了一个巨大的网络，构成其节点的是一个个的网页，网页之间通过超链接相互关联。基于万维网这种简单开放的技术，现代搜索引擎技术可以在巨大的网络空间中搜寻问题的相关网页。但是，由于移动互联网的发展，移动设备屏幕空间限制，用户期望搜索引擎可以得到精确地结果，而不是在搜索结果中逐一寻找。由于用户的这种精确性需求，单单是网页的存储已经不可以满足。为了解决这种需求XML(可扩展标记语言)、RDF(资源描述框架)以及OWL(网络本体语言)等被提出用于描述网络中的信息。XML通过为文档和数据内容添加标签，以便于数据交换；RDF通过(主语，谓词，对象)三元组的形式描述网络中资源的语义关系；OWL让描述这种概念成为可能，具有极强的表达能力以及解释能力。通过以上三种互联网信息描述方式知识图谱的概念在近些年被提出。网页中的实体以及实体属性被识别后放入知识图谱中存储，当用户发起搜索时，能够根据知识图谱中已知的节点准备理解用户意图，给出精准的回答。目前在基于RDF三元组形式的知识图谱的主要存储查询方法有：基于一个巨大的三元组表，基于多个由属性聚类表和基于多个由垂直分类划分表。基于一个巨大的三元组表的形式是将所有三元组存储在一个巨大的三列表格中，使用这种方法的主要系统有：RDF-3x和Hexastore；基于多个由属性聚类的表的形式有两种主要类型的表格：元组属性聚类表格和具有相似属性的对象的表格；基于多个由...

【技术保护点】
1.一种内存受限情况下的大规模知识图谱的实时查询方法，其特征在于，包括：对原始知识图谱进行处理分析得到倒排文件哈希列表；基于原始知识图谱构建多级结构索引；对查询语句进行解析得到目标词汇，并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。

【技术特征摘要】
1.一种内存受限情况下的大规模知识图谱的实时查询方法，其特征在于，包括：对原始知识图谱进行处理分析得到倒排文件哈希列表；基于原始知识图谱构建多级结构索引；对查询语句进行解析得到目标词汇，并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图。2.根据权利要求1所述的方法，其特征在于，所述对原始知识图谱进行处理分析得到倒排文件哈希列表，包括：提取原始知识图谱中先词汇再偏移形式的元组信息；将提取的所述元组信息转换为先词汇再偏移量形式；对先词汇再偏移量形式的元组信息根据词汇进行排序，得到倒排文件；对得到的倒排文件进行哈希处理，得到倒排文件哈希列表。3.根据权利要求1所述的方法，其特征在于，所述基于原始知识图谱构建多级结构索引，包括：对原始知识图谱的初步结构发现结果进行数据分类、清洗以及简化数据表示得到知识图谱数据分类简化结果；基于知识图谱数据分类简化结果提取底层结构节点；对所述知识图谱数据分类简化结果进一步提取，实现上级结构索引。4.根据权利要求1～3中任一项所述的方法，其特征在于，所述对查询语句进行解析得到目标词汇，并根据所述倒排文件哈希列表和多级结构索引查找该目标词汇对应的三元组生成结果子图的步骤，包括：接收用户输入的查询语句Q、返回元组个数下限min、返回元组个数上限max以及抽样比率δ；解析查询语句Q，得到需要查询的词汇集；对词汇集中每一个词汇，在倒排文件哈希列表中并行寻找对应磁盘索引集{S1，S2，……，Sn}，并求取交集后得到磁盘索引交集S；判断磁盘索引交集S的长度是否小于返回元组个数下限min：是则对于磁盘索引交集S中的任一索引位置，将该索引及其位置信息作为一个节点加入结果子图中；否则，判断磁盘索引交集S的长度是否大于返回元组个数上限max时，是则令抽样数量为max，否则令抽样数量为磁盘索引交集S的长度与抽样比率δ的乘积，并且如果该抽样数量小于返回元组个数下限min时，令抽样数量为元组个数下限min；在确定抽样数量后对磁盘索引交集S进行半随机抽样，将抽样得到的每个索引在多级结构索引及其位置信息加入到结构子图...

【专利技术属性】
技术研发人员：王宏志，万晓珑，高宏，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人