当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于解耦表征和异构图软硬注意力网络的消歧方法技术

技术编号:35915260 阅读:52 留言:0更新日期:2022-12-10 10:56
本发明专利技术涉及一种基于解耦表征和异构图软硬注意力网络的消歧方法,属于学术数据库构建的实体消歧技术领域,包括以下步骤:S1、数据清洗及预处理;S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;S4、论文初始化聚类;S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;S6、获得论文消歧结果。本发明专利技术解决了传统消岐方法在实际应用过程中产生的错误分配问题,提高了实体表征能力,提高了消岐算法的性能。提高了消岐算法的性能。提高了消岐算法的性能。

【技术实现步骤摘要】
一种基于解耦表征和异构图软硬注意力网络的消歧方法


[0001]本专利技术涉及一种基于解耦表征和异构图软硬注意力网络的消歧方法,属于学术数据库构建的实体消歧


技术介绍

[0002]如今是知识爆炸的年代,每时每刻都有海量的信息产生,在大数据的背景下,数据挖掘的一个重要课题就是如何消除同名实体的歧义。此课题在学术知识库建设、信息检索、自动问答、推荐系统等领域普遍存在且具有重要的研究意义。近年来,大量学者对该课题进行了深入研究。但是,目前的学术搜索系统中,存在着大量的论文与真实作者匹配错误的情况,其中很多是在作者名称消歧系统运行时产生的历史错误,并且这些错误会随着系统论文数量的增加而逐渐扩大。
[0003]在对该现象的进一步调查中,主要分为以下两种情形,论文过合并与论文过拆分问题。过合并即为将多位同名作者的论文分配到某一人名下,过拆分即为将属于一个作者的文章拆成多个作者。目前这两种现象广泛出现在作者名称消歧(AND)算法的运行过程,并且这些错误如果不提高重视并加以解决的话会严重影响到后续算法的稳定执行,此问题是当前AND研究中的一大挑战。

技术实现思路

[0004]本专利技术的目的是提供一种基于解耦表征和异构图软硬注意力网络的消歧方法,解决了现有技术中存在的缺陷。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于解耦表征和异构图软硬注意力网络的消歧方法,包括以下步骤:
[0007]S1、数据清洗及预处理,将论文数据存入非结构化数据库MongoDB,删除数据中的重复值,按照一定规则对缺失值进行补全,同时对命名不一致的属性进行一致化处理;
[0008]S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;
[0009]S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;
[0010]S4、以准确率为原则,对论文进行初始化聚类;
[0011]S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;
[0012]S6、获得论文消歧结果。
[0013]本专利技术技术方案的进一步改进在于,所述S2包括:
[0014]S21、使用语言预训练模型OAG_BERT获取论文表征:
[0015][0016]其中,表示为论文作者名称为a的论文i,为该论文对应的向量表示;
[0017]S22、构造正例对构造反例对并对
正例对和负例对进行组合;
[0018]S23、引入训练的目标函数h=f(bert(x)),训练的目标损失为:
[0019][0020]其中,N是最小batch size,τ是超参数,sim(h1,h2)是余弦相似度;
[0021]S24、经过训练后得到论文作者名称表征向量
[0022]本专利技术技术方案的进一步改进在于,所述S3包括:
[0023]S31、将论文作者名称表征向量输入变分自编码模型,变分自编码器VAE中,通过训练获得表征向量z,此过程loss函数可描述为:
[0024]F(θ,φ,β;emb,z)≥L(θ,φ;emb,z,β)=E

(z|emb)[logp
θ
(emb|z)]‑
βD
KL
(q
φ
(z|emb)||p(z))
[0025]其中,θ,φ为模型参数,β是控制解耦程度的超参数,z为隐向量;
[0026]S32、调整超参数β,获得最佳的实体解耦表征z,所述解耦量化指标具体为:
[0027][0028]其中,L为采样个数,为第l个采样样本与其固定单个维度的变换后样本之间的绝对值。
[0029]本专利技术技术方案的进一步改进在于,所述S4包括:
[0030]S41、将聚类过程作为消歧的初始过程,以准确率为原则,按照距离指标将论文划分成更多的簇;
[0031]S42、通过LightGBN模型进行向量聚类,构建作者实体簇候选集;
[0032]S43、提出指标Recall
over

merge
去描述聚类结果的过合并现象,所述指标Recall
over

merge
为:
[0033][0034]其中,TP表示两个同一作者论文在同一个簇中的情况数量;FN表示两个同一作者论文分别在两个簇中的情况数量;M为理想聚类结果数,N为实际聚簇结果数;Recall
over

merge
值越高聚类所带来的过拆分程度就越低。
[0035]本专利技术技术方案的进一步改进在于,所述S5包括:
[0036]S51、为名称相同的作者实体生成候选对;
[0037]S52、对于每一个作者实体,构建异构图,如果候选对之间的机构、合著者名称相同或者论文相似,则相互连接,得到异构图G(V,E);
[0038]S53、利用异构图软硬注意力网络确定作者实体匹配;
[0039]S54、最终实体及损失函数为:
[0040]e
final
=(LeakRelu W(e
HGAT
||e
hard
))
[0041]其中,e
HGAT
为异构图自注意力网络聚合的实体e的表示,e
hard
为异构图硬注意力机制聚合的实体e的表示;
[0042][0043]其中,d为欧式距离,η为margin值以保证loss值大于0。
[0044]本专利技术技术方案的进一步改进在于,所述S53包括:
[0045]S531、通过S3得到每一个论文实体的语义嵌入,构建异构图进行训练,得到每个实体的结构嵌入;
[0046]S532、将语义嵌入和结构嵌入两种嵌入合并在一起作为输入特征f,通过self_attention求出不同作者实体e之间的重要性,此过程描述为:
[0047]t
ij
=self_attention(Wf
i
,Wf
j
)
[0048]其中,W为共享的权重矩阵,对于每一个为e
i
的所有邻居节点;其中归一化注意力系数如下:
[0049][0050]为可训练参数;
[0051]S533、实体e的最终表示是其聚合邻居特征的结果,此过程表示为:
[0052][0053]其中,σ为激活函数,为e
i
的邻居节点;
[0054]S534、为了解决注意力值的非零问题,提出结合硬注意力的方式聚合特征:
[0055][0056][0057][0058]其中,是实体e的邻居节点个数,|E1|是簇1中所有的实体,是含有临边(h
i
,r
i
)的实体数量。
[0059]本专利技术技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,包括以下步骤:S1、数据清洗及预处理,将论文数据存入非结构化数据库MongoDB,删除数据中的重复值,按照一定规则对缺失值进行补全,同时对命名不一致的属性进行一致化处理;S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;S4、以准确率为原则,对论文进行初始化聚类;S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;S6、获得论文消歧结果。2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S2包括:S21、使用语言预训练模型OAG_BERT获取论文表征:其中,P
ia
表示为论文作者名称为a的论文i,为该论文对应的向量表示;S22、构造正例对构造反例对并对正例对和负例对进行组合;S23、引入训练的目标函数h=f(bert(x)),训练的目标损失l
i
为:其中,N是最小batch size,τ是超参数,sim(h1,h2)是余弦相似度;S24、经过训练后得到论文作者名称表征向量3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S3包括:S31、将论文作者名称表征向量输入变分自编码模型,变分自编码器VAE中,通过训练获得表征向量z,loss函数为:F(θ,φ,β;emb,z)≥L(θ,φ;emb,z,β)=E

(z|emb)[logp
θ
(emb|z)]

βD
KL
(q
φ
(z|emb)||p(z))其中,θ,φ为模型参数,β是控制解耦程度的超参数,z为隐向量;S32、调整超参数β,获得最佳的实体解耦表征z,所述解耦量化指标具体为:其中,L为采样个数,为第1个采样样本与其固定单个维度的变换后样本之间的绝对值。
4.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S4包括:S41、将聚类过程作为消歧的初始过程,以准确率为原则,按照距离指标将论文划分成更多的簇;S42、通过LightGBN模型进行向量聚类,构建作者实体簇候选集;S43、提出指标Recall
over

merge
去描述聚类结果的过合并现象,所述指标Recall
over

merge
为:其中,TP表示两个同一作者论文在同一个簇中的情况数量;FN表示两个同一作者论文分别在两个簇中的情况数量;M为理想聚类结果数,N为实际聚簇结果数;Recall
over

merge

【专利技术属性】
技术研发人员:宫继兵彭吉全房小涵赵金烨林宇庭
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1