一种语义敏感的知识图谱随机游走采样方法技术

技术编号:24996081 阅读:46 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种语义敏感的知识图谱随机游走采样方法。本发明专利技术首先,利用知识图谱嵌入方法进行知识图谱的表示学习,获取谓词向量空间。其次,利用谓词向量空间计算查询谓词与知识图谱谓词的语义相似度,并将其转换为知识图谱中边的权重。第三,基于语义相似性在知识图谱中框定一个给定实体的

【技术实现步骤摘要】
一种语义敏感的知识图谱随机游走采样方法
本专利技术涉及知识图谱领域,具体涉及一种语义敏感的知识图谱随机游走采样方法。
技术介绍
知识图谱(KnowledgeGraph)于2012年由Google最先提出,其基本理念就是将网络中存在的多源异构数据进行实体、属性与关系的抽取,以属性来描述实体,以实体间的关系刻画客观存在的事实(即客观存在的知识)。最终这些实体、属性与关系都将以图的形式进行存储形成一张丰富的知识图谱,并在此基础上实现基于图的查询与分析,进而为用户提供更智能、更丰富的知识获取、挖掘与搜索服务。其中,聚集型图查询问题是知识图谱图查询的重要研究内容之一,即针对实体数值属性的聚集函数查询问题,而知识图谱的采样则是回答聚集类图查询问题的基础。目前采样技术多用于结构化数据(如关系型数据)的聚集查询过程中,根据具体的采样需求对其中的一列或者多列构建索引,通过索引快速访问满足条件的记录,从而达到采样的目的。然而,在非结构化数据的采样过程中,由于其数据结构不规则或不完整性,无法直接将结构化数据的采样方法迁移过来。综上所述,目前聚集查询过本文档来自技高网...

【技术保护点】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:/n步骤1:谓词语义相似度计算/n以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;/n接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;/n步骤2:语义敏感的n跳子图框定/n步骤2.1:语义敏感的n跳子图框定的初始化/n用户给定一个查询图,包含三类信息:已知实体e

【技术特征摘要】
1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:
步骤1:谓词语义相似度计算
以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;
接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;
步骤2:语义敏感的n跳子图框定
步骤2.1:语义敏感的n跳子图框定的初始化
用户给定一个查询图,包含三类信息:已知实体e0,谓词p,目标实体类型t;
根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重;
目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间;
步骤2.2:语义敏感的n跳子图框定的过程
创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边;
接着将实体e0作为根结点,通过广度优先搜索算法在知识图谱G中往外遍历;
循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer;
若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中;若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss;
若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点;
不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′;
步骤3:转移矩阵的设计
针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵;
步骤3.1:基于邻边语义相似性的归一化
对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化;
假设当前实体ei周围相...

【专利技术属性】
技术研发人员:徐小良洪启帆王宇翔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1