【技术实现步骤摘要】
一种基于多类交叉熵对比补全编码的知识表示学习框架
[0001]本专利技术涉及自然语言处理和机器学习领域,特别涉及一种基于多类交叉熵对比补全编码的知识表示学习框架。
技术介绍
[0002]神经网络的进步极大地推动了自然语言处理的发展,改变了自然语言处理领域的研究面貌。传统特征工程的思维模式被神经网络模型学习自然语言特征的方式所取代。知识图谱是2012年由谷歌提出来的,随后在学术界和工业界都得到了广泛地运用,是自然语言知识存储的一种重要形式。自然语言处理的很多下游任务比如问答系统、关系抽取、实体分类等都越来越依赖于知识图谱的构建和表征的质量。同时,在大数据时代,知识产生和更新的速度十分快,依靠手工构造知识图谱需要耗费大量的人力、物力和财力,而且其速度也不能满足人们的要求,所以自动构建知识图谱的方法逐渐替代了传统手工构造的方法,但是这样就难免会发生信息丢失的情况,本专利技术就是通过学习已有三元组事实信息,补全缺失信息的三元组,并完成知识表示学习的任务。
[0003]目前,常见的知识表示学习方法,主要是通过设计打分函数(score Function),(例如transE、transR、transH等),利用边缘损失函数(Margin Loss)对三元组的头、尾实体向量和关系向量进行打分,对正样本打高分,负样本打低分,从而学习到实体、关系的向量表示。但是,此类方法最大的问题在于打分函数是不可学习的,受到人先验知识的限制,且边缘损失函数不能对正负样本进行自适应的加权学习,大大限制了表示学习的效果。近期提出的一些知识表示学 ...
【技术保护点】
【技术特征摘要】
1.一种基于多类交叉熵对比补全编码的知识表示学习框架,其特征在于,包括以下步骤:S1:采用语义结构特征提取的方法,通过嵌入神经网络提取实体、关系的低级语义特征,再通过图卷积神经网络提取知识图谱高级语义结构特征,利用Skip
‑
connecting跳线连接融合低级语义和高级语义结构特征;S2:采用自动对比补全的编码方法,根据预测的实体位置不同,输入不同的拼接向量,选择现有的能量函数,或者设置全新的补全网络,得到预测向量的上下文向量;S3:采用EntityBank的建立和正负样本采样的方法(C3NCE),利用实体集中所有实体依次替换三元组中的头(或尾)实体,构建正负样例并对其做标记,存储于EntityBank中;S4:采用计算多类交叉熵对比损失函数的方法(NT
‑
Xent),设置打分函数score为带温度缩放因子的余弦相似度函数为score(u,v)=(u
T
v/||u||||v||)/τ,而后设置密度比函数为f(x,c)=exp(score(e(x),c)),按照C3NCE构造正负样本集合X,计算多类交叉熵对比损失函数,训练模型自动完成三元组补全任务,并得到实体、关系的向量表示。2.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习框架,其特征在于,上述步骤S1所述语义结构特征提取的方法包括以下步骤:S11:首先进行知识图谱的基础符号定义,知识图谱定义为S11:首先进行知识图谱的基础符号定义,知识图谱定义为是实体集合,是关系集合,是三元组集合,是逆向关系集合,任意三元组r
‑1是r的逆向关系,因此语义结构特征提取函数为e(
·
);S12:通过嵌入神经网络Embedding提取知识图谱实体的低级语义特征l
v
,以及关系的低级语义特征l
r
;S13:通过图卷积神经网络GCN对知识图谱实体的低级语义特征l
v
和关系的低级语义特征l
r
进行聚合传播得到知识图谱实体v、关系r的高级语义结构特征h
v
和h
r
;S14:在嵌入神经网络Embedding和图卷积神经网络GCN之间增加Skip
‑
connecting跳线连接,将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系的语义结构特征:s
v
=e(v)=l
v
+h
v
s
...
【专利技术属性】
技术研发人员:欧阳波,朱纪洪,史恒,于帆,刘彬彬,叶梓轩,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。