【技术实现步骤摘要】
一种基于上下文信息融合的知识图谱补全方法
[0001]本专利技术属于知识图谱
,具体涉及一种基于上下文信息融合的知识图谱补全方法。
技术介绍
[0002]近年来,知识图谱领域的发展备受人们的关注。知识图谱(Knowledge Graph,KG)在人工智能领域的众多问题中有成功应用如问答和信息检索等。知识图谱中包含三元组<头实体,关系,尾实体>,表示为<h,r,t>,是许多自然语言处理特别是信息检索应用如语义搜索和问答的有用资源。然而大型知识图谱,即使包含数十亿个三元组,仍然是不完整的,即丢失了许多有效三元组。因此,许多研究工作都集中在知识图补全任务上,该任务旨在预测知识图谱三元组中缺失的部分。
[0003]基于距离的知识图谱补全模型通常定义一个评分函数,其形式类似于||h+r
‑
t||,用来衡量给定三元组的合理性。例如,TransE模型直接将嵌入空间作为翻译空间;TransH模型将关系建模为在超平面上的平移操作;TransR模型对不同空间中的实体和关系进行建模,即实体空间和多个关系空间;TransD模型通过使用两个向量对每个实体或关系进行建模;TranSparse模型主要考虑知识图谱中的异质性和不平衡性;PTransE模型将关系路径集成到TransE模型中;ITransF模型使用稀疏注意力机制来发现隐藏的关系概念,并通过概念共享来传递知识。以上常见的基于距离计算的知识图谱补全模型通常具有较高的模型训练速度和模型参数效率。
...
【技术保护点】
【技术特征摘要】
1.一种基于上下文信息融合的知识图谱补全方法,其特征在于,步骤包括:步骤S1:数据预处理;根据数据集中三元组数据,构建算法的输入数据,包括实体关系对、上下文信息对和候选实体列表;步骤S2:将实体关系对输入实体关系编码模块,得到实体关系特征;步骤S21:将实体关系对进行初始化嵌入,得到实体关系矩阵;步骤S22:将实体关系矩阵分别输入多个不同的2D卷积网络进行特征提取,得到多个不同尺度的实体关系特征,然后将多个实体关系特征拼接在一起得到初始实体关系特征;步骤S23:初始实体关系特征经过全连接层映射改变嵌入维度得到实体关系特征;步骤S3:将一组上下文信息对输入上下文编码模块,得到多个上下文特征;步骤S31:将实体关系对所对应的一组上下文信息对进行初始化嵌入,得到多个上下文嵌入;步骤S32:多个上下文嵌入顺序拼接在一起得到上下文嵌入;步骤S33:将上下文嵌入输入3D卷积网络进行特征提取,得到一组上下文特征;步骤S4:将实体关系特征和一组上下文特征输入到特征融合模块,得到查询向量;步骤S41:将实体关系特征和一组上下文特征输入Transformer网络,得到初始查询向量;步骤S42:将初始查询向量输入多层感知机,得到查询向量;步骤S5:计算查询向量与候选实体之间的相似度,得到候选实体的概率分布;步骤S51:将候选实体列表进行初始化嵌入,得到候选实体嵌入;步骤S52:基于余弦相似度计算查询向量与候选实体嵌入的相似度得分;然后经过sigmoid函数计算得到候选实体的概率分布;步骤S6:最小化整体损失函数训练整个算法,使算法预测结果拟合正确结果;所得的整个算法模型即为知识图谱补全方法的工具。2.根据权利要求1所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S1具体为:步骤S11:数据集中出现的头实体h和尾实体t,构成集合E,即为候选实体列表;步骤S12:对于给定的三元组<h,r,t>,取其中的头实体h和关系r构成实体关系对p:<h,r>;步骤S13:为每个实体关系对构建上下文结构信息;对于给定的实体关系对p:<h,r>,在数据集中找到所有与p具有相同实体h或相同关系r的实体关系对的集合c,即为实体关系对p对应的上下文信息对列表,而所有c构成的集合C,是所有实体关系对所对应的上下文信息对的集合。3.根据权利要求1或2所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S2具体为:步骤S21:将实体关系对p分别进行初始化嵌入,得到实体嵌入E
h
∈R1×
d
和关系嵌入E
r
∈R1×
d
,其中d是知识图谱表征的嵌入维度;然后将E
h
和E
r
进行拼接和重塑操作,得到实体关系矩阵其中,d1和d2分别是实体关系矩阵的宽和高,满足条件d1×
d2=2d;步骤S22:将实体关系矩阵M
p
分别输入3个不同的2D卷积网络进行特征提取,得到3个实
体关系特征然后将三个实体关系特征拼接在一起得到初始实体关系特征f
p
∈R1×
3d
,即定义其中[;]表示拼接;步骤S23:将f
p
输入全连接层改变嵌入维度得到实体关系特征F
p
∈R1×
d
。4.根据权利要求1或2所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S3具体为:步骤S31:将实体关系对p所对应的上下文信息对c按照步骤S21所描述的方式进行处理,得到n个上下文嵌入矩阵其中n代表上下文信息对的个数,j∈[1,n]代表第j个上下文信息对,d1和d2分别是上下文嵌入的宽和高,满足条件d1×
d2=2d,d是知识图谱表征的嵌入维度;步骤S32:将n个上下文嵌入V
c
拼接在一起得到上下文嵌入即定义其中[;]表示拼接操作;步骤S33:将上下文嵌入M
c
输入3D卷积网络进行特征提取,得到n个上下文特征5.根据权利要求3所述的一种基于上下文信息融合的知识图谱补全方法,其特征在于,所述步骤S3具体为:步骤S31:将实体关系对p所对应的上下文信息对c按照步骤S21...
【专利技术属性】
技术研发人员:马战川,张立和,孔雨秋,陈思龙,尹宝才,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。