基于语义和关系结构融合嵌入的知识图谱嵌入方法技术

技术编号:37230874 阅读:25 留言:0更新日期:2023-04-20 23:13
本发明专利技术利用语义相关性和关系结构相关性在关联关系推理中的作用,提出一种基于语义和关系结构融合嵌入的知识图谱嵌入方法,适用于所有既包含实体描述,又包含关联关系的知识图谱的嵌入和推理,相较于纯基于语义嵌入和纯基于关系结构嵌入的知识图谱嵌入方法,本发明专利技术在知识图谱关联预测任务、实体预测任务和未知实体样本预测任务中都有良好的表现。体样本预测任务中都有良好的表现。体样本预测任务中都有良好的表现。

【技术实现步骤摘要】
基于语义和关系结构融合嵌入的知识图谱嵌入方法


[0001]本专利技术利用语义相关性和关系结构相关性在关联关系推理中的作用,提出一种基于语义和关系结构融合嵌入的知识图谱嵌入方法,适用于所有既包含实体描述,又包含关联关系的知识图谱的嵌入和推理,相较于纯基于语义嵌入和纯基于关系结构嵌入的知识图谱嵌入方法,本专利技术在知识图谱关联预测任务、实体预测任务和未知实体样本预测任务中都有良好的表现。

技术介绍

[0002]知识图谱是大规模语义网络知识库,利用三元组(头实体、关系、尾实体)来描述具体的知识,并以有向图的形式对其进行表示和存储,具有语义丰富、结构友好、易于理解等优点。由于在表达人类先验知识上具有优良的特性,知识图谱近年来在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且成功的应用。知识图谱是基于人类先验知识构建的,难免会出现关联结构缺失的问题,在一定程度上限制了知识图谱在下游任务中的应用。为解决该问题,知识图谱推理和补全任务应运而生,旨在根据知识图谱中已有事实推断出新的事实,从而使得知识图谱更完整。
[0003]知识图谱嵌入是解决知识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于语义和关系结构融合嵌入的知识图谱嵌入方法,其特征在于:步骤1:提炼知识图谱的“实体描述数据集”和“关系结构数据集”;“实体描述数据集”源自实体的描述性属性;“关系结构数据集”源自于实体关系三元组(h,r,t),其中h,t表示头实体和尾实体,r表示关系类型;步骤2:训练词嵌入模型;基于“实体描述数据集”进行词嵌入训练,构建词嵌入模型;词嵌入模型中保存了“实体描述数据集”中单词的嵌入向量;步骤3:实体预向量嵌入;从“关系结构数据集”中随机选取训练数据;对于每个三元组(h,r,t),从“实体描述数据集”中获取相应的头尾h,t的实体描述,并以实体描述中所有词的词向量均值定义实体语义嵌入的预向量pre_vector;步骤4:语义嵌入;头实体预向量pre_H_vector和尾实体pre_T_vector预向量经过相同结构、相同参数的语义嵌入网络后,嵌入为头实体向量H_vector和尾实体向量T_vector;步骤5:关系结构嵌入;头实体向量H_vector和尾实体向量T_vector,与关系向量R_vector共同输入到关系结构模型进行优化训练,同时优化头尾实体向量、关系向量及语义嵌入网络的参数,实现语义和关系结构的联合训练和融合嵌入;技术实现和网络模型具体如下:设拟嵌入的维数为V,则对“实体描述数据集”的词进行V维词嵌入。从“关系结构数据集”抽取三元组(h,r,t)。假设头实体h描述的词数量为m,根据词嵌入模型可得到m
×
V的实体描述矩阵。以均值进行压缩后得到V维的头实体预向量pre_H_vector。尾实体t也通过同样的操作得到尾实体预向量pre_T_vector。使用均值压缩的方式可以保证即使头尾实体描述词数量不同,也能得到相同维数的预向量,这是使用统一的语义嵌入网络的前提。本发明的语义嵌入基于出现在相似上下文中的词往往具有相似含义的假设,采用基于当前词的周围词context(w)预测当前词w的方法实现词嵌入,即最大化条件概率p(w|context(w))。同时采用随机负采样提高词嵌入性能。头实体预向量pre_H_vector和尾实体预向量pre_T_vector经过相同结构、相同参数的语义嵌入网络,分别得到V维的头实体向量H_vector和尾实体向量T_vector。头实体向量H_vector和尾实体向量T_vector分别输入到关系结构嵌入网络结构参与优化训练。关系结构嵌入阶段的目标是将“关系结构数据集”中的头实体、尾实体和关联关系三元组(h,r,t)关系结构信息嵌入到向量中。关系结构嵌入的基本思路是将实体之间的关联关系r理解为头实体h和尾实体t之间的转换操作,即:H_vector+R_vector≈T_vector。几何意义是尾实体向量应该是头实体向量与关系向量加和的近邻。关联关系r的处理与关系结构嵌入方法类似,从C
×
V维的关系向量矩阵中抽取对应向量并输入到关系结构嵌入网络结构参与优化训练,其中C为关系类型的数量。模型优化训练时,基于H_vector+R_vector=T_vector监督并反向传播优化h,r,t及语义嵌入网络模型。关系结构嵌入阶段仅直接优化r及关系类型向量矩阵。对于h,t,继续反向传播到语义嵌入网络后,通过优化语义嵌入网络模型间接优化h,t。关键技术实现如下:(1)语义嵌入技术实现语义嵌入基于出现在相似上下文中的词往往具有相似含义的假设,采用基于当前词的周围词context(w)预测当前词w的方法实现词嵌入,即最大化条件概率p(w|context(w));
同时采用随机负采样提高词嵌入性能,对于给定的context(w),词w就是一个正样本,其它词就是负样本;对于一个给定的样本(context(w),w),希望最大化:g(w)=Π
u∈{w}∪NEG(w)
p(u|context(w))(1)式中,NEG(w)表示负样本集,通过增大正样本概率同时降低负样本概率,最大化g(w);基于Sigmoid构造p(u|context(w...

【专利技术属性】
技术研发人员:刘潇健顾问张旸旸边洪梅
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1