一种基于数据增强和自适应负采样技术的知识图谱推理方法技术

技术编号：32854280 阅读：17 留言：0更新日期：2022-03-30 19:21

本发明专利技术公开了一种基于数据增强和自适应负采样技术的知识图谱推理方法，基于数据增强和自适应负采样技术，实现在不引入额外数据的前提下，将每个实体在知识图谱上各种关系的频率作为原数据特征的补充，实现对单个三元组数据的增强。为了进一步提高知识图谱推理模型的泛化性能，在为正样本进行数据增强的同时，本发明专利技术设计了能够对不同知识图谱进行自适应的负采样策略，不仅能够有效避免低质量负样本引发的梯度消失对模型优化的负面影响，还能根据正样本特征自适应的选取高质量负样本。正样本特征自适应的选取高质量负样本。正样本特征自适应的选取高质量负样本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据增强和自适应负采样技术的知识图谱推理方法

[0001]本专利技术属于知识图谱推理
，主要用来解决大规模知识图谱中普遍存在的不完备问题。

技术介绍

[0002]知识图谱是存储现实世界中常见事实的结构化信息的多关系图，其节点表示实体，边表示实体之间的关系，边用不同的关系进行标记，关系以(h,r,y)三元组的形式组织。由于能够以机器读取的方式对结构化的复杂数据进行建模，知识图谱现在被广泛应用于知识问答、信息检索以及基于内容的推荐系统等诸多领域。规模庞大的知识图谱可以包含数百万个实体和数十亿个事实。但与现有的事实和新增加的现实世界知识庞大的体量面前，知识图谱的不完备问题依然是知识图谱应用于实际问题时亟待解决的痛点。
[0003]知识图谱的补全是非常重要的工作，为了在现有三元组的基础上预测新的三元组，并进一步丰富和完善知识图谱，研究人员提出了各种技术来纠正错误以及将缺失的事实添加到知识图谱，其中，将知识图谱中缺失事实添加到知识图谱中的任务被称为知识图谱补全，纠正知识图谱中的错误事实的任务则被称为知识图谱去噪，这两种任务一般统称为知识图谱推理。

技术实现思路

[0004]本专利技术创造了一种基于数据增强和自适应负采样技术的知识图谱推理方法，实现在不引入额外数据的前提下，将每个实体在知识图谱上各种关系的频率作为原数据特征的补充，实现对单个三元组数据的增强。同时，为了进一步提高知识图谱推理模型的泛化性能，在为正样本进行数据增强的同时，本专利技术设计了能够对不同知识图谱进行自适应的负采样策略，...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强和自适应负采样技术的知识图谱推理方法，其特征在于：该方法的执行步骤如下，步骤一：根据知识图谱中实体关系频率序列对三元组进行数据增强；关系在知识图谱上具有明确的方向性，所以每个实体都有两种关系频率特征，即该实体在所有三元组中作为头实体的关系频率rf
h
和该实体在三元组中作为尾实体的关系频率rf
t
；根据知识图谱上每个三元组的头、尾实体对应形式，将三元组(h,r,t)中头实体h的关系频率和尾实体t的关系频率拼接起来，得到该三元组的关系频率序列特征；r表示的是实体h与尾实体t的关系；步骤二：使用自适应负采样策略获取负样本；通过两两计算实体的关系频率序列间的皮尔逊相关系数cor
p
，自适应地根据每个实体各自的关系频率特征筛选跟目标实体有较高相似度的负样本实体并将他们加入负样本实体候选集中缓存；在进行负采样时，根据正例三元组中的一个实体索引对应的负样本实体候选集，用候选集中的负样本实体替换该实体，并重新构建三元组并获取对应的关系频率序列即可得到高质量负样本数据；步骤三：建立融合图注意力机制的神经网络模型；本方法设计的神经网络模型结构中，由两个图注意力层和一个线性层组成；图注意力层中使用多头注意力机制，注意力头在知识图谱上每个三元组的一阶邻域中，首先对不同关系根据它们的特征计算相应权重，并根据图注意力机制进行特征的加权聚合，而多头注意力机制会对每个注意力头输出的关系特征进行拼接和平均化处理，来加强模型的稳定性；线性层则用于对图注意力层的输出进行线性变换将其与对应三元组中的关系嵌入特征的维度对齐；完成特征提取后，用二分交叉熵计算损失值，之后Adam优化器会根据损失值对神经网络模型进行自适应的参数优化；步骤四：设置神经网络模型参数，包括batch size即每个batch使用的数据量，epoch num即训练轮次，device即运行设备，将处理好的数据载入神经网络模型中进行训练；步骤五：保存训练好的神经网络模型，对所有待预测的未知三元组进行数据增强处理，使其与神经网络模型输入格式对齐后，将处理好的待预测三元组数据输入神经网络模型中；在之前的步骤中，神经网络模型完成了对知识图谱上已知的三元组特征的拟合，在步骤五，完成训练的神经网络模型会对这些未知三元组是否成立做出判定；若一个未知三元组被判定为成立，则它将作为新的知识被添加到知识图谱中，进行知识图谱推理的目的也正是对知识图谱中缺失的知识进行完善，至此知识图谱推理任务正式完成。2.根据权利要求1所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法，其特征在于：每个实体在三元组中作为头实体和尾实体两种情况下的关系频率序列和和和其中，f_h
i
代表实体在第i个关系上作为头实体的频数，f_t
i
代表实体在第i个关系上作为尾实体的频数，rf_h
i
、rf_t
i
分别表示对应各个频数对应的频率；N
r
＝11为知识图谱中关
系的类型数量；将两种关系频率按照拼接即可得到该实体完整的关系频率序列，如下式(2)所示：最终得到的序列长度为2*N
r
＝22，因为每个关系在该实体作为头实体和作为尾实体时分别计算关系频率；知识图谱中实体总数量N
e
＝40943，则共得到40943个实体的关系频率序列；根据每个实体的关系频率序列即可在知识图谱上对三元组数据进行数据增强：根据数据集中给出的三元组(h0,r0,t0)，将之前得到的该三元组数据中头实体h0的关系频率序列和尾实体t0的关系频率序列按照式(3)拼接起来，得到该三元组的关系频率序列特征：上式中Seq
h
、Seq
t
分别表示三元组(h0,r0,t0)的头实体h0的关系频率序列，和尾实体t0的关系频率序列，为该三元组在知识图谱上一阶邻域内的关系频率特征序列，该关系频率特征序列总长度为4*N
r
＝44。3.根据权利要求2所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法，其特征在于：使用自适应负采样策略获取负样本；用ne...

【专利技术属性】
技术研发人员：刘博，吴恩举，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人