当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于多类交叉熵对比补全编码的知识表示学习框架制造技术

技术编号:28209115 阅读:29 留言:0更新日期:2021-04-24 14:42
本发明专利技术公开一种基于多类交叉熵对比补全编码的知识表示学习框架,该框架主要包括:语义结构特征提取模块(S)和自动对比补全编码模块(G)。语义结构特征提取模块(S)负责对实体、关系提取低级和高级语义结构特征并融合得到低级和高级语义结构特征;自动对比补全编码模块(G)负责预测出实体上下文向量,设置正负样本及其采样的方法(C3NCE),计算多类交叉熵对比损失函数,并通过优化该目标函数训练模型,得到知识图谱实体和关系的向量表示,并完成三元组补全任务。本发明专利技术所提的框架能够快速、稳定、准确地补全知识图谱中缺失信息的三元组,并很好地完成了知识表示学习任务,极大地提高了知识图谱构建的准确性和效率,应用前景广阔。阔。阔。

【技术实现步骤摘要】
一种基于多类交叉熵对比补全编码的知识表示学习框架


[0001]本专利技术涉及自然语言处理和机器学习领域,特别涉及一种基于多类交叉熵对比补全编码的知识表示学习框架。

技术介绍

[0002]神经网络的进步极大地推动了自然语言处理的发展,改变了自然语言处理领域的研究面貌。传统特征工程的思维模式被神经网络模型学习自然语言特征的方式所取代。知识图谱是2012年由谷歌提出来的,随后在学术界和工业界都得到了广泛地运用,是自然语言知识存储的一种重要形式。自然语言处理的很多下游任务比如问答系统、关系抽取、实体分类等都越来越依赖于知识图谱的构建和表征的质量。同时,在大数据时代,知识产生和更新的速度十分快,依靠手工构造知识图谱需要耗费大量的人力、物力和财力,而且其速度也不能满足人们的要求,所以自动构建知识图谱的方法逐渐替代了传统手工构造的方法,但是这样就难免会发生信息丢失的情况,本专利技术就是通过学习已有三元组事实信息,补全缺失信息的三元组,并完成知识表示学习的任务。
[0003]目前,常见的知识表示学习方法,主要是通过设计打分函数(score Function),(例如transE、transR、transH等),利用边缘损失函数(Margin Loss)对三元组的头、尾实体向量和关系向量进行打分,对正样本打高分,负样本打低分,从而学习到实体、关系的向量表示。但是,此类方法最大的问题在于打分函数是不可学习的,受到人先验知识的限制,且边缘损失函数不能对正负样本进行自适应的加权学习,大大限制了表示学习的效果。近期提出的一些知识表示学习的方法对打分函数进行了参数化设计,并采用逻辑回归损失函数或二分类交叉熵损失函数,使得打分函数可以通过损失函数进行学习优化,得到一个更合理的打分函数,将知识图谱实体、关系的表示向量投影到一个更合理的表示空间进行对比计算,但是逻辑回归损失函数同样不能对正负样本进行自适应的加权学习,而二分类交叉熵损失函数由于正负样本数量的巨大差异则存在显著的样本不平衡问题。还有一些方法通过在打分之前提取高级语义特征,来提升打分的效果,进而提升知识表示学习的效果,但是高级的语义特征并一定适合知识图谱下游任务,就知识图谱三元组补全任务而言,既需要高级的语义类型特征也需要低级的细节特征。综上所述,针对目前知识表示学习方法存在的问题,本专利技术以对比学习框架为基础,将知识表示学习分解为两个步骤。第一步提取知识图谱实体、关系的不同层级的语义结构特征,将不同层级的特征进行融合,获得满足下游任务的语义特征;第二步对打分函数进行参数化设计,确保打分函数可学习,将三元组的表示向量投影到更有效的表示空间进行计算,同时使用带温度缩放因子的余弦相似度多类交叉熵损失函数,能够对正负样本进行自适应的加权学习,并避免了样本不平衡的问题,通过互信息估计的理论保证模型优化效果和可解释性。

技术实现思路

[0004]针对知识图谱三元组补全任务,本专利技术提供一种基于多类交叉熵对比补全编码的
知识表示学习框架,其特征在于,包括以下步骤:
[0005]S1:采用语义结构特征提取的方法,通过嵌入神经网络Embedding提取实体和关系的低级语义特征l
v
和l
r
,再通过图卷积神经网络GCN提取知识图谱高级语义结构特征h
v
和h
r
,利用Skip

connecting跳线连接融合低级语义和高级语义结构特征得到:
[0006]s
v
=e(v)=l
v
+h
v

[0007]s
r
=e(r)=l
r
+h
r

[0008]S2:采用自动对比补全的编码方法,根据预测的实体位置不同,输入不同的拼接向量,选择现有的能量函数,或者设置全新的补全网络,得到预测向量的上下文向量;
[0009]S3:采用EntityBank的建立和正负样本采样的方法(C3NCE),利用实体集中所有实体依次替换三元组中的头(或尾)实体,构建正负样例并对其做标记,存储于EntityBank中;
[0010]S4:采用计算多类交叉熵对比损失函数的方法(NT

Xent),设置打分函数,密度比函数,通过计算多类交叉熵对比损失函数训练模型完成三元组补全任务,同时得到实体、关系的向量表示。
[0011]进一步地,上述步骤S2的具体实现过程为:
[0012]S21:当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(s
h
,s
r
),输出为预测的尾实体上下文向量c=g(s
h
,s
r
);
[0013]S22:当网络预测头实体时,输入为尾实体向量和关系向量r的拼接向量输出为预测的头实体上下文向量
[0014]S23:选用合适的能量函数(TransE、DistMult、ConvE等)设置补全函数g(
·
)或设计新的补全网络。
[0015]进一步地,上述步骤S3的具体实现过程为:
[0016]S31:补全尾实体,随机选取三元组集合中的一个三元组(h,r,t),然后用实体集里的所有实体依次替换其尾实体t,得到(h,r,t
*
),若则对于(h,r)而言,t
*
是正例t
+
,若则对于(h,r)而言,t
*
是正例t

,将正例t
+
和负例t

的向量表示存储在集合大小为的Entity Bank中;
[0017]S32:补全头实体,随机选取三元组集合中的一个三元组(t,r
‑1,h),然后用实体集里的所有实体依次替换其实体h,得到(t,r
‑1,h
*
),若则对于(t,r
‑1)而言,h
*
是正例h
+
,若则对于(t,r
‑1)而言,h
*
是负例h

,将正例h
+
和负例h

的向量表示存储在集合大小为的Entity Bank中;
[0018]S33:使用随机采样方法,从Entity Bank中采样1个正例和N

1个负例构成正负样本集合X={x0,x1,x2,

,x
N
‑1},完成自监督噪声对比估计正负样本集合X的构造。
[0019]进一步地,上述步骤S4的具体实现过程为:
[0020]S41:根据选取的能量函数(TransE、DistMult、ConvE等)设置打分函数score,或根据相似性假设设置新的打分函数score为带温度缩放因子的余弦相似度函数score(u,v)=(
T
v/||u||||v||)/τ;
[0021]S42:根据打分函数计算sc本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多类交叉熵对比补全编码的知识表示学习框架,其特征在于,包括以下步骤:S1:采用语义结构特征提取的方法,通过嵌入神经网络提取实体、关系的低级语义特征,再通过图卷积神经网络提取知识图谱高级语义结构特征,利用Skip

connecting跳线连接融合低级语义和高级语义结构特征;S2:采用自动对比补全的编码方法,根据预测的实体位置不同,输入不同的拼接向量,选择现有的能量函数,或者设置全新的补全网络,得到预测向量的上下文向量;S3:采用EntityBank的建立和正负样本采样的方法(C3NCE),利用实体集中所有实体依次替换三元组中的头(或尾)实体,构建正负样例并对其做标记,存储于EntityBank中;S4:采用计算多类交叉熵对比损失函数的方法(NT

Xent),设置打分函数score为带温度缩放因子的余弦相似度函数为score(u,v)=(u
T
v/||u||||v||)/τ,而后设置密度比函数为f(x,c)=exp(score(e(x),c)),按照C3NCE构造正负样本集合X,计算多类交叉熵对比损失函数,训练模型自动完成三元组补全任务,并得到实体、关系的向量表示。2.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习框架,其特征在于,上述步骤S1所述语义结构特征提取的方法包括以下步骤:S11:首先进行知识图谱的基础符号定义,知识图谱定义为S11:首先进行知识图谱的基础符号定义,知识图谱定义为是实体集合,是关系集合,是三元组集合,是逆向关系集合,任意三元组r
‑1是r的逆向关系,因此语义结构特征提取函数为e(
·
);S12:通过嵌入神经网络Embedding提取知识图谱实体的低级语义特征l
v
,以及关系的低级语义特征l
r
;S13:通过图卷积神经网络GCN对知识图谱实体的低级语义特征l
v
和关系的低级语义特征l
r
进行聚合传播得到知识图谱实体v、关系r的高级语义结构特征h
v
和h
r
;S14:在嵌入神经网络Embedding和图卷积神经网络GCN之间增加Skip

connecting跳线连接,将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系的语义结构特征:s
v
=e(v)=l
v
+h
v
s
...

【专利技术属性】
技术研发人员:欧阳波朱纪洪史恒于帆刘彬彬叶梓轩
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1