一种基于数据增强和自适应负采样技术的知识图谱推理方法技术

技术编号:32854280 阅读:17 留言:0更新日期:2022-03-30 19:21
本发明专利技术公开了一种基于数据增强和自适应负采样技术的知识图谱推理方法,基于数据增强和自适应负采样技术,实现在不引入额外数据的前提下,将每个实体在知识图谱上各种关系的频率作为原数据特征的补充,实现对单个三元组数据的增强。为了进一步提高知识图谱推理模型的泛化性能,在为正样本进行数据增强的同时,本发明专利技术设计了能够对不同知识图谱进行自适应的负采样策略,不仅能够有效避免低质量负样本引发的梯度消失对模型优化的负面影响,还能根据正样本特征自适应的选取高质量负样本。正样本特征自适应的选取高质量负样本。正样本特征自适应的选取高质量负样本。

【技术实现步骤摘要】
一种基于数据增强和自适应负采样技术的知识图谱推理方法


[0001]本专利技术属于知识图谱推理
,主要用来解决大规模知识图谱中普遍存在的不完备问题。

技术介绍

[0002]知识图谱是存储现实世界中常见事实的结构化信息的多关系图,其节点表示实体,边表示实体之间的关系,边用不同的关系进行标记,关系以(h,r,y)三元组的形式组织。由于能够以机器读取的方式对结构化的复杂数据进行建模,知识图谱现在被广泛应用于知识问答、信息检索以及基于内容的推荐系统等诸多领域。规模庞大的知识图谱可以包含数百万个实体和数十亿个事实。但与现有的事实和新增加的现实世界知识庞大的体量面前,知识图谱的不完备问题依然是知识图谱应用于实际问题时亟待解决的痛点。
[0003]知识图谱的补全是非常重要的工作,为了在现有三元组的基础上预测新的三元组,并进一步丰富和完善知识图谱,研究人员提出了各种技术来纠正错误以及将缺失的事实添加到知识图谱,其中,将知识图谱中缺失事实添加到知识图谱中的任务被称为知识图谱补全,纠正知识图谱中的错误事实的任务则被称为知识图谱去噪,这两种任务一般统称为知识图谱推理。

技术实现思路

[0004]本专利技术创造了一种基于数据增强和自适应负采样技术的知识图谱推理方法,实现在不引入额外数据的前提下,将每个实体在知识图谱上各种关系的频率作为原数据特征的补充,实现对单个三元组数据的增强。同时,为了进一步提高知识图谱推理模型的泛化性能,在为正样本进行数据增强的同时,本专利技术设计了能够对不同知识图谱进行自适应的负采样策略,不仅能够有效避免低质量负样本引发的梯度消失对模型优化的负面影响,还能根据正样本特征自适应的选取高质量负样本。本专利技术做出的改进及其意义将从以下三点具体阐述:
[0005](1)创新性的从现有三元组中抽取表达能力更强的关系频率特征,并以此特征对原三元组数据进行数据增强,有效提高了推理过程中对知识图谱蕴含信息的利用率。由于对规模庞大的知识图谱建模难度较高且代价极大,已有的对知识图谱整体建模的模型又不具备良好的可扩展性,所以当下流行的知识图谱推理模型大都以孤立的三元组的简单嵌入作为输入数据,但这种方案在一定程度上割裂了单个三元组与整体知识图谱的联系,而单个三元组本身携带的信息量十分有限,容易产生降低模型推理精度、减弱模型泛化能力的限制作用。本专利技术从特征表达能力的角度出发,通过统计每个实体在识图谱上各种关系的出现频率,包括该实体作为头实体时各种关系的频率,和该实体作为尾实体时各种关系的频率,用以代替该实体的简单嵌入。相比于以实体简单嵌入为输入的方法,关系频率不仅能够描述实体本身的状态,还能描述该实体邻域范围内的空间结构信息,在丰富特征维度的同时,还可以强化该实体与知识图谱整体的联系。除此之外,由于使用关系频率代替实体嵌
入,输入特征和实体本身的绑定关系也减弱了,所以相比于使用实体的简单嵌入训练得到的模型,通过本专利技术设计的数据增强策略得到的输入数据能使模型以关系频率特征更好的处理未知三元组,有效增强推理模型的泛化能力。
[0006](2)设计了灵活、高效并且能够自适应各种实体特征的负采样策略,使得推理模型的泛化能力获得显著提升。为了提高知识图谱推理模型的性能,在训练时需要会向模型输入一定比例的负样本,但由于知识图谱推理往往基于局部封闭世界假设或开放世界假设,这意味着对每一个正例三元组都有规模庞大的候选负样本集合,许多知识图谱推理模型在选择负样本的时候都使用随机选择策略,但是这种随机选择的策略获取的负样本中由于包含大量低质量负样本,极易导致梯度消失,在这种情况下,模型将无法获得优化,甚至可能产生负优化。针对这一问题,本专利技术设计了一种自适应的负采样策略:以两个实体的关系频率特征之间的皮尔逊相关系数为判断依据,根据需要的负采样比例设定阈值作为筛选条件,为了避免负采样得到的候选实体id集中在某个范围内,每次遍历开始的位置经过随机选择。这种自适应负采样策略能够根据实体的特征自适应的调整候选实体范围,因而能够适用于各种知识图谱,同时由于负采样发生在训练之前,所以并不会给模型训练产生负担。本专利技术提出的这一负采样策略,不仅适用于以关系频率为特征的情况,而且可以迁移到对以实体简单嵌入为输入的模型中,不仅灵活高效,而且具有广泛的适用性。
[0007](3)建立融合图注意力机制的知识图谱推理模型,利用关系之间的相关性得到表达能力更强的特征。在知识图谱中,实体之间通过关系相互联系,这种非欧几里得数据结构具有十分强大的表达能力,但是不论是处理异质图还是处理大规模图数据都具有较大的难度。本专利技术通过使用关系频率特征来描述实体状态的方式,将三元组转换成用关系特征描述的序列,能够有效的降低知识图谱的异质图特性带来的图结构建模难度,在此基础上本专利技术充分利用知识图谱上关系之间存在的相关性,设计了一种结合融合了图注意力机制的神经网络模型用于完成知识图谱推理任务。
[0008]本专利技术采用的技术方案为一种基于数据增强和自适应负采样技术的知识图谱推理方法,该方法的执行步骤如下:
[0009]步骤一:根据知识图谱中实体关系频率序列对三元组进行数据增强。如附图1的实体一阶邻域示意图所示,关系在知识图谱上具有明确的方向性,所以每个实体都有两种关系频率特征,即该实体在所有三元组中作为头实体的关系频率rf
h
和该实体在三元组中作为尾实体的关系频率rf
t
(注:如无特别说明,下面提到的关系频率均为rf
h
与rf
t
的拼接成的关系频率序列)。根据知识图谱上每个三元组的头、尾实体对应形式,将三元组(h,r,t)中头实体h的关系频率和尾实体t的关系频率拼接起来,得到该三元组的关系频率序列特征。r表示的是实体h与尾实体t的关系。本方法通过本步骤描述的过程,对知识图谱上每个实体的关系频率进行加工并进一步得到知识图谱上每个三元组的关系频率序列特征来达到数据增强的目的。附图2用于对本步骤介绍的数据增强策略进行辅助说明;
[0010]步骤二:使用自适应负采样策略获取负样本。通过两两计算实体的关系频率序列间的皮尔逊相关系数cor
p
,就可以自适应的根据每个实体各自的关系频率特征筛选跟目标实体有较高相似度的负样本实体并将他们加入负样本实体候选集中缓存。在进行负采样时,根据正例三元组中的一个实体索引对应的负样本实体候选集,用候选集中的负样本实体替换该实体,并重新构建三元组并获取对应的关系频率序列即可得到高质量负样本数
据;
[0011]步骤三:建立融合图注意力机制的神经网络模型。本方法设计的神经网络模型结构如附图3所示,由于知识图谱推理任务的特殊性,知识图谱推理模型的一般不适合较深的深度,因此本方法设计的模型主要由两个图注意力层和一个线性层组成。其中图注意力层中使用多头注意力机制,注意力头在知识图谱上每个三元组的一阶邻域中,首先对不同关系根据它们的特征计算相应权重,并根据图注意力机制进行特征的加权聚合,而多头注意力机制会对每个注意力头输出的关系特征进行拼接和平均化处理,来加强模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:该方法的执行步骤如下,步骤一:根据知识图谱中实体关系频率序列对三元组进行数据增强;关系在知识图谱上具有明确的方向性,所以每个实体都有两种关系频率特征,即该实体在所有三元组中作为头实体的关系频率rf
h
和该实体在三元组中作为尾实体的关系频率rf
t
;根据知识图谱上每个三元组的头、尾实体对应形式,将三元组(h,r,t)中头实体h的关系频率和尾实体t的关系频率拼接起来,得到该三元组的关系频率序列特征;r表示的是实体h与尾实体t的关系;步骤二:使用自适应负采样策略获取负样本;通过两两计算实体的关系频率序列间的皮尔逊相关系数cor
p
,自适应地根据每个实体各自的关系频率特征筛选跟目标实体有较高相似度的负样本实体并将他们加入负样本实体候选集中缓存;在进行负采样时,根据正例三元组中的一个实体索引对应的负样本实体候选集,用候选集中的负样本实体替换该实体,并重新构建三元组并获取对应的关系频率序列即可得到高质量负样本数据;步骤三:建立融合图注意力机制的神经网络模型;本方法设计的神经网络模型结构中,由两个图注意力层和一个线性层组成;图注意力层中使用多头注意力机制,注意力头在知识图谱上每个三元组的一阶邻域中,首先对不同关系根据它们的特征计算相应权重,并根据图注意力机制进行特征的加权聚合,而多头注意力机制会对每个注意力头输出的关系特征进行拼接和平均化处理,来加强模型的稳定性;线性层则用于对图注意力层的输出进行线性变换将其与对应三元组中的关系嵌入特征的维度对齐;完成特征提取后,用二分交叉熵计算损失值,之后Adam优化器会根据损失值对神经网络模型进行自适应的参数优化;步骤四:设置神经网络模型参数,包括batch size即每个batch使用的数据量,epoch num即训练轮次,device即运行设备,将处理好的数据载入神经网络模型中进行训练;步骤五:保存训练好的神经网络模型,对所有待预测的未知三元组进行数据增强处理,使其与神经网络模型输入格式对齐后,将处理好的待预测三元组数据输入神经网络模型中;在之前的步骤中,神经网络模型完成了对知识图谱上已知的三元组特征的拟合,在步骤五,完成训练的神经网络模型会对这些未知三元组是否成立做出判定;若一个未知三元组被判定为成立,则它将作为新的知识被添加到知识图谱中,进行知识图谱推理的目的也正是对知识图谱中缺失的知识进行完善,至此知识图谱推理任务正式完成。2.根据权利要求1所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:每个实体在三元组中作为头实体和尾实体两种情况下的关系频率序列和和和其中,f_h
i
代表实体在第i个关系上作为头实体的频数,f_t
i
代表实体在第i个关系上作为尾实体的频数,rf_h
i
、rf_t
i
分别表示对应各个频数对应的频率;N
r
=11为知识图谱中关
系的类型数量;将两种关系频率按照拼接即可得到该实体完整的关系频率序列,如下式(2)所示:最终得到的序列长度为2*N
r
=22,因为每个关系在该实体作为头实体和作为尾实体时分别计算关系频率;知识图谱中实体总数量N
e
=40943,则共得到40943个实体的关系频率序列;根据每个实体的关系频率序列即可在知识图谱上对三元组数据进行数据增强:根据数据集中给出的三元组(h0,r0,t0),将之前得到的该三元组数据中头实体h0的关系频率序列和尾实体t0的关系频率序列按照式(3)拼接起来,得到该三元组的关系频率序列特征:上式中Seq
h
、Seq
t
分别表示三元组(h0,r0,t0)的头实体h0的关系频率序列,和尾实体t0的关系频率序列,为该三元组在知识图谱上一阶邻域内的关系频率特征序列,该关系频率特征序列总长度为4*N
r
=44。3.根据权利要求2所述的一种基于数据增强和自适应负采样技术的知识图谱推理方法,其特征在于:使用自适应负采样策略获取负样本;用ne...

【专利技术属性】
技术研发人员:刘博吴恩举
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1