基于上下文数据增强的少样本知识图谱表示学习方法及系统技术方案

技术编号:36118128 阅读:69 留言:0更新日期:2022-12-28 14:22
本发明专利技术属于知识图谱表示学习推理技术领域,特别涉及一种基于上下文数据增强的少样本知识图谱表示学习方法及系统,首先选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;然后通过变分自编码器学习头尾实体对在向量表示空间中的特征,解码生成新的三元组扩充训练集以辅助学习。本发明专利技术通过扩展训练样本集的同时保证训练样本的质量,从而更好地支撑少样本条件下的知识图谱表示学习以及知识推理,在聚合实体上下文和关系上下文时,考虑不同信息在不同三元组推理任务中的不同作用;通过在聚合时分配权重,能够减少噪声与无关信息带来的影响,有效提高聚合后表示信息的准确性,从而使得知识图谱表示学习具有更好的语义表达能力。图谱表示学习具有更好的语义表达能力。图谱表示学习具有更好的语义表达能力。

【技术实现步骤摘要】
基于上下文数据增强的少样本知识图谱表示学习方法及系统


[0001]本专利技术属于知识图谱表示学习推理
,特别涉及一种基于上下文数据增强的少样本知识图谱表示学习方法及系统。

技术介绍

[0002]知识图谱是一种通过图来反映现实世界中实体之间关系的数据结构,是当前最热门的知识存储结构之一。当前代表性的知识图谱包括Freebase,YAGO,WordNet等。但这些数据库中普遍存在着数据缺失的情况,限制了其在智能搜索、推荐系统、智能问答等下游应用的效果。受到Word2VEC的启发,知识图谱表示学习使用向量来反映知识图谱结构,能够有效地帮助补全和推理图谱中缺失信息。典型的TransE、TransH、RotatE、ConvE等方法主要关注知识图谱的三元组结构信息,通过在向量空间构造合适的得分函数,获得实体和关系的向量表示。上述表示学习方法通常基于图谱中拥有足够数量的实体和关系这个前提,然而,现实中大部分知识图谱存在普遍的长尾分布情况,即只有很少的关系拥有足够的三元组,而大部分关系拥有的三元组数量较为有限,也称为少样本情况,导致已有表示学习模型的向量表示效果较差。为了能够在样本有限的情况下学习到可靠的实体和关系表示,研究者们提出了少样本知识表示学习的概念。已有的少样本知识表示学习方法大致可分为两类:基于元学习的方法和基于度量的方法,前者通过一个能够在不同的推理任务中共享的关系学习器,实现对特定关系表示的快速学习和更新,后者主要通过设计邻居节点编码器和匹配处理器来衡量待推理的三元组和已知三元组之间的相似性。
[0003]面对训练样本数量不足的情况,采用数据增强技术可增加样本量,进而提高模型性能。数据增强最初主要应用于计算机视觉领域,通过旋转、平移、缩放等方式将一幅图片扩展为多幅。当前,自然语言处理领域也尝试通过数据增强来增加训练数据的多样性,提升模型的泛化能力,如变分自编码器(Variational auto encoder,VAE)等基于采样的数据增强方法,但受限于自然语言机器表示的离散性,实际应用难度较大,尚未广泛应用于知识图谱表示学习中。

技术实现思路

[0004]为此,本专利技术提供一种基于上下文数据增强的少样本知识图谱表示学习方法及系统,通过变分自编码器学习头尾实体对在向量表示空间中的特征,解码生成新的三元组扩充训练集以辅助学习,提升模型在少样本情况下的表达能力以及知识推理性能。
[0005]按照本专利技术所提供的设计方案,提供一种基于上下文数据增强的少样本知识图谱表示学习方法,包含如下内容:
[0006]选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;
[0007]利用变分自动编码器VAE从隐变量空间的概率分布中学习原始实体对表示的隐藏特征,并解码生成新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对
表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
[0008]根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
[0009]构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
[0010]作为本专利技术中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,对每个实体对中实体周围的邻居节点上下文信息进行聚合编码来获取原始实体对表示,包含如下内容:首先,通过预训练的实体向量表示来获取关系表示,并计算该关系表示与各邻居节点上下文关系之间的相似度;接着,将相似度值作为聚合上下文实体表示的权重,通过softmax函数获取实体上下文信息聚合表示;然后,依据实体上下文信息聚合表示和实体表示来获取对应的原始实体对表示。
[0011]作为本专利技术中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,关系表示与各邻居节点上下文关系之间的相似度计算过程表示为:其中,r为获取的关系表示,且r=h

t,h和t分别为预训练的实体向量表示,W是变换矩阵,b是偏置,r
i
为邻居节点i上下文关系。
[0012]作为本专利技术中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,原始实体对表示为头尾实体f(h)和f(t),其中,f(e)=σ(W1e+W2e
aggr
),e为头尾实体本身的实体表示,e
aggr
为实体上下文信息的聚合表示,W1和W2为两个变换矩阵,σ为Sigmoid激活函数。
[0013]作为本专利技术基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用变分自动编码器VAE学习原始实体对表示的隐藏特征,并解码生成新实体对表示,包含如下内容:首先,对于每个原始实体对,利用全连接网络提取实体对特征,并通过编码器将实体对特征映射为后验概率分布;然后,根据后验概率分布,解码器对实体对特征进行解码重构得到新的实体对表示,并通过变分自动编码器VAE损失函数的惩罚项和超参数来控制输入的原始实体对表示和输出的新实体对表示之间的相似程度。
[0014]作为本专利技术基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用编码器对原始实体对表示和新实体对表示进行编码中,利用Transformer作为编码器,将待推理三元组实体对的推理任务作为序列预测任务,结合实体节点的原始实体对表示和新实体对表示通过Transformer编码器进行编码处理来获取推理序列对应实体对的少样本关系表示。
[0015]作为本专利技术基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,构建相似度度量函数中,首先,利用点积方式计算待推理三元组实体对少样本关系与推理序列中少样本关系表示的相似度得分,并通过softmax函数来计算注意力分布中的关注权重;然后,利用相似度度量函数φ(q
r
,s
aggr
)来计算每一个候选尾实体得分,其中,q
r
表示待推理三元组实体对少样本关系,s
aggr
表示注意力分布中的关注权重。
[0016]作为本专利技术基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,知识图谱表示学习模型训练优化中,将每个关系的三元组实体对作为一个任务,每个任务中从待推理三元组实体对中选取若干三元组实体对组成支持集,其余三元组实体对构成查询
集,并通过替换查询集中三元组实体对中的尾部实体来构造负样本。
[0017]作为本专利技术基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用变分自编码器和相似度得分构建的损失函数表示为:其中,表示负样本优化三元组表示的hinge损失部分,表示变分自动编码器优化损失部分,λ表示比重调整参数。
[0018]进一步地,本专利技术还提供一种基于上下文数据增强的少样本知识图谱表示学习系统,包含:推理序列构建模块、相似度获取模块和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,包含如下内容:选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。2.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,对每个实体对中实体周围的邻居节点上下文信息进行聚合编码来获取原始实体对表示,包含如下内容:首先,通过预训练的实体向量表示来获取关系表示,并计算该关系表示与各邻居节点上下文关系之间的相似度;接着,将相似度值作为聚合上下文实体表示的权重,通过softmax函数获取实体上下文信息聚合表示;然后,依据实体上下文信息聚合表示和实体表示来获取对应的原始实体对表示。3.根据权利要求2所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,关系表示与各邻居节点上下文关系之间的相似度计算过程表示为:其中,r为获取的关系表示,且r=h

t,h和t分别为预训练的实体向量表示,W是变换矩阵,b是偏置,r
i
为邻居节点i上下文关系。4.根据权利要求1或2所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,原始实体对表示为头尾实体f(h)和f(t),其中,f(e)=σ(W1e+W2e
aggr
),e为头尾实体本身的实体表示,e
aggr
为实体上下文信息的聚合表示,W1和W2为两个变换矩阵,σ为Sigmoid激活函数。5.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,利用变分自动编码器VAE学习原始实体对表示的隐藏特征,并解码生成新实体对表示,包含如下内容:首先,对于每个原始实体对,利用全连接网络提取实体对特征,并通过编码器将实体对特征映射为后验概率分布;然后,根据后验概率分布,解码器对实体对特征进行解码重构得到新的实体对表示,并通过变分自动编码器VAE损失函数的惩罚项和超参数来控制输入的原始实体对表示和输出的新实体对表示之间...

【专利技术属性】
技术研发人员:卢记仓王凌周刚刘洪波兰明敬李珠峰吴建萍王婧卢银鹏
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1