当前位置: 首页 > 专利查询>中南大学专利>正文

一种时空知识图谱索引方法及相关设备技术

技术编号:39407266 阅读:8 留言:0更新日期:2023-11-19 15:59
本发明专利技术提供了一种时空知识图谱索引方法及相关设备,包括:获取时空节点的时空属性数据,构建3DR索引树;聚合3DR索引树中的每个节点内部包含的所有时空实体,得到超图节点,并将超图节点的二阶子图作为训练数据输入图神经网络模型进行训练,得到子图匹配模型;将获取的查询请求分解得到的查询子图和时空约束输入子图匹配模型进行计算,得到查询子图的嵌入向量以及时空范围参数;对时空属性数据进行剪枝查找每个叶子节点下的时空实体子图,并根据查询子图和子图匹配模型对每个时空实体子图进行剪枝得到时空子图嵌入向量;对比嵌入向量与时空子图嵌入向量在向量空间中的相对位置关系得到查询结果;大幅提升了时空交集查询效率。效率。效率。

【技术实现步骤摘要】
一种时空知识图谱索引方法及相关设备


[0001]本专利技术涉及时空知识图谱管理、检索
,特别涉及一种时空知识图谱索引方法及相关设备。

技术介绍

[0002]随着人工智能技术的快速发展,知识图谱的不断扩充,如何对数据海量多样的知识图谱建立高效可用的索引结构,尤其针对知识图谱中占比不小的时空信息进行索引,精确快速的满足时空知识查询需求,是实现事件知识图谱、地理知识图谱等时空知识图谱高效应用的重要途径。时空知识图谱以属性图的形式存储了以头实体、尾实体、关系组成的三元组,一个三元组代表一个事实,大量事实组成图结构的知识数据,其中实体可以具有时间或空间属性,例如空间坐标、时间范围、最小包络矩形等,时空知识图谱具有大量的时空属性数据,大大增加了时空域的检索时间,这使得通用的知识图谱索引难以支持日益增长的时空知识查询需求。
[0003]现有知识图谱索引按其查询目的可大致分为图特征、节点特征查询两类,其中,节点特征查询包括对图数据中的关键节点的路径查询、关键字查询等,该类查询不涉及复杂的图结构且易于实现,但不能满足复杂的图模式查询,无法支持知识图谱的全部查询需求;图特征查询指的是给定一个数据图及查询图模式,返回一个与查询图模式在图结构、属性及语义上完全一致的子图,即子图匹配问题;针对图索引的子图匹配问题,现有方法对图特征进行了不同视角的挖掘,例如采用路径特征来对图数据进行索引,其枚举所有的N跳路径信息,并使用哈希列表存储所有的路径特征,该方法显然不适用于海量数据,且路径特征无法保留足够多的图结构特征信息,因此剪枝效果较差;还有利用邻域签名的方式解决了路径特征索引在大数据量下的应用问题,但仍存在着剪枝效果差的问题;还有研究一种基于树的图索引,采用基于节点可达性的伪子图同构的方法捕获图结构特征,该方法存在着剪枝效果差、构建时间受节点度数影响大且对图结构的捕捉并不全面等问题;还有通过从海量图数据中挖掘频繁子图进行索引,该类方法在稀疏数据集以及频繁图模式出现较多的数据集上表现较好,但对于多样化的图谱索引能力欠佳;现有技术还有利用知识图谱本身蕴含的丰富的本体语义信息的NeMa算法,该算法是一种顶点相似性的子图匹配算法,该算法将节点和其邻居的语义信息表示为向量,较为完整的保留了图结构信息,能够有效的获取节点的向量表示,但是不考虑查询图和图数据库的结构相似性,对节点间的语义相关性表示较差。
[0004]为了解决知识图谱中空间知识的查询检索问题,Riso

Tree模型采用R

Tree等时空索引方法对空间数据单独进行索引,R树是B树向多维空间发展的另一种形式,它将对象空间按范围划分,每个节点都对应一个区域和一个磁盘页,非叶节点的磁盘页中存储其所有子节点的区域范围,非叶节点的所有子节点的区域都落在它的区域范围之内;叶节点的磁盘页中存储其区域范围之内的所有空间对象的外接矩形;是一种动态索引结构,并利用元路径等子图信息增强R

Tree索引的方法增强索引对空间图模式的剪枝能力,利用带有空
间属性的空间节点作为锚点,在通过空间过滤和子图过滤的耦合查询后得到候选空间节点,之后依据查询语句的约束条件及空间节点候选集重写查询语句从而得到目标子图;但依赖于提取预先选定的特征,没有充分利用到知识图谱的图结构特征,从而在剪枝能力上表现较差,进而影响了查询效率。此外,大多索引方法需要保存大量的子图结构信息,在知识图谱海量数据的应用场景下,大大增加了索引文件消耗的存储空间,且没有考虑到时空知识图谱的存储图结构及知识语义特征,且设计时并没有考虑时间维度,也不支持时空交集查询等需求。

技术实现思路

[0005]本专利技术提供了一种时空知识图谱索引方法及相关设备,其目的是为了在减小时空知识图谱索引消耗的存储空间的同时大幅提升具有语义条件的时空交集查询效率。
[0006]为了达到上述目的,本专利技术提供了一种时空知识图谱索引方法,包括:步骤1,获取图数据库的时空知识图谱中所有时空节点的时空属性数据,基于时空属性数据将每个时空节点与3DR索引树的节点进行连接,构建3DR索引树,每个时空节点中包含有多个时空实体;步骤2,针对3DR索引树中的每个节点,将节点内部包含的所有时空实体进行聚合,得到超图节点,并将超图节点的二阶子图作为训练数据;步骤3,将训练数据输入图神经网络模型进行训练,得到子图匹配模型并存入索引文件中,子图匹配模型用于比对查询子图与每个叶子节点下的时空实体子图的嵌入向量在向量空间的相对位置关系;步骤4,将获取的查询请求进行分解,得到查询子图和时空约束,将查询子图和时空约束输入子图匹配模型进行计算,得到查询子图的嵌入向量以及时空范围参数,时空范围参数包括时空约束下的最小时空坐标和最大时空坐标;步骤5,通过3DR索引树对所有时空节点中的时空属性数据进行剪枝,在3DR索引树中查找与每个对应的时空节点下的时空实体子图,并根据查询子图和子图匹配模型对每个叶子节点下的时空实体子图进行剪枝,得到每个叶子节点下的时空实体子图的时空子图嵌入向量;步骤6,对比查询子图的嵌入向量与每个叶子节点下的时空实体子图的时空子图嵌入向量在向量空间中的相对位置关系,依据相对位置关系查询得到查询结果。
[0007]进一步来说,步骤1包括:获取图数据库的时空知识图谱中所有时空节点的时空属性数据,时空属性数据包括时空坐标、时间信息和最小包络矩形,基于时空属性数据获取每个时空节点的时空坐标,每个时空节点中包含有多个时空实体;基于时空属性数据将每个时空节点与3DR索引树的节点进行连接,将每个时空节点中的时空实体插入3DR索引树的节点;3DR索引树的根节点为<L,LU,RB,N>,其中L为节点层级,根节点设置为0,LU、RB表示3DR索引树的节点对应的时空范围,N表示时空节点内包含的时空实体数量。
[0008]进一步来说,将每个时空节点中的时空实体插入3DR索引树的节点,包括:从3DR索引树的根节点开始插入时空实体,依据贪婪策略,在3DR索引树的每一层
插入时空实体后,依次选择最小包络矩形体积最小的叶子节点以及最包络矩形长宽高之和最小的叶子节点;当待插入的叶子节点内存放的时空实体数量达到阈值时,将叶子节点中离最小包络矩形的中心点最远的时空实体删除,重新插入3DR索引树的节点中;若重新插入3DR索引树的节点中时空实体数量大于阈值时,则对该节点进行划分,并通过3DR索引树的关系边将划分好的节点连接至与节点对应的3DR索引树的节点上。
[0009]进一步来说,步骤3包括:通过更改训练数据中各节点内部的属性信息和替换关系类型两种方式生成负样本;将负样本和训练数据输入图神经网络模型进行训练,利用GraphSage向量聚合思想将在3DR索引树的节点内采样得到的子图嵌入向量进行聚合,得到聚合向量;将聚合向量赋给3DR索引树的所有节点,并自底向上依次将每层节点的聚合向量进行聚合,得到3DR索引树中各节点的子图信息向量表征并存入索引文件中;图神经网络模型采用多任务学习方法分别学习子图判别任务和图相似性判别任务,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时空知识图谱索引方法,其特征在于,包括:步骤1,获取图数据库的时空知识图谱中所有时空节点的时空属性数据,基于所述时空属性数据将每个所述时空节点与3DR索引树的节点进行连接,构建3DR索引树,每个所述时空节点中包含有多个时空实体;步骤2,针对所述3DR索引树中的每个节点,将所述节点内部包含的所有时空实体进行聚合,得到超图节点,并将所述超图节点的二阶子图作为训练数据;步骤3,将所述训练数据输入图神经网络模型进行训练,得到子图匹配模型并存入索引文件中,所述子图匹配模型用于比对查询子图与每个叶子节点下的时空实体子图的嵌入向量在向量空间的相对位置关系;步骤4,将获取的查询请求进行分解,得到查询子图和时空约束,将所述查询子图和所述时空约束输入所述子图匹配模型进行计算,得到所述查询子图的嵌入向量以及时空范围参数,所述时空范围参数包括所述时空约束下的最小时空坐标和最大时空坐标;步骤5,通过所述3DR索引树对所有时空节点中的时空属性数据进行剪枝,在所述3DR索引树中查找与每个所述叶子节点对应的时空节点中的时空实体子图,并根据所述查询子图和所述子图匹配模型对每个所述叶子节点下的时空实体子图进行剪枝,得到每个所述叶子节点下的时空实体子图的时空子图嵌入向量;步骤6,对比所述查询子图的嵌入向量与每个所述叶子节点下的时空实体子图的时空子图嵌入向量在向量空间中的相对位置关系,依据所述相对位置关系查询得到查询结果。2.根据权利要求1所述的时空知识图谱索引方法,其特征在于,所述步骤1包括:获取图数据库的时空知识图谱中所有时空节点的时空属性数据,所述时空属性数据包括时空坐标、时间信息和最小包络矩形,基于时空属性数据获取每个所述时空节点的时空坐标,每个所述时空节点中包含有多个时空实体;基于所述时空属性数据将每个所述时空节点与3DR索引树的节点进行连接,将每个所述时空节点中的时空实体插入所述3DR索引树的节点;所述3DR索引树的根节点为<L,LU,RB,N>,其中L为节点层级,根节点设置为0,LU、RB表示3DR索引树的节点对应的时空范围,N表示时空节点内包含的时空实体数量。3.根据权利要求2所述的时空知识图谱索引方法,其特征在于,将每个所述时空节点中的时空实体插入所述3DR索引树的节点,包括:从所述3DR索引树的根节点开始插入所述时空实体,依据贪婪策略,在所述3DR索引树的每一层插入所述时空实体后,依次选择所述最小包络矩形体积最小的叶子节点以及最包络矩形长宽高之和最小的叶子节点;当待插入的叶子节点内存放的时空实体数量达到阈值时,将所述叶子节点中离最小包络矩形的中心点最远的时空实体删除,重新插入所述3DR索引树的节点中;若重新插入所述3DR索引树的节点中时空实体数量大于阈值时,则对该节点进行划分,并通过所述3DR索引树的关系边将划分好的节点连接至与所述节点对应的3DR索引树的节点上。4.根据权利要求3所述的时空知识图谱索引方法,其特征在于,所述步骤3包括:通过更改所述训练数据中各节点内部的属性信息和替换关系类型两种方式生成负样本;
将所述负样本和所述训练数据输入所述图神经网络模型进行训练,利用GraphSage向量聚合思想将在3DR索引树的节点内采样得到的子图嵌入向量进行聚合,得到聚合向量;将所述聚合向量赋给所述3DR索引树的所有节点,并自底向上依次将每层节点的聚合向量进行聚合,得到所述3DR索引树中各节点的子图信息向量表征并存入索引文件中;所述图神经网络模型采用多任务学习方法分别学习子图判别任务和图相似性判别任务,并采用均方误差损失函数对所述图神经网络模型进行训练,得到子图匹配模型并存入索引文件中。5.根据权利要求4所述的时空知识图谱索引方法,其特征在于,所述通过所述3DR索引树对所有时空节点中的时空属性数据进行剪枝,在所述...

【专利技术属性】
技术研发人员:邓敏谢顾然杨学习胡鑫刘启亮张雪英
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1