【技术实现步骤摘要】
一种基于解耦表征和异构图软硬注意力网络的消歧方法
[0001]本专利技术涉及一种基于解耦表征和异构图软硬注意力网络的消歧方法,属于学术数据库构建的实体消歧
技术介绍
[0002]如今是知识爆炸的年代,每时每刻都有海量的信息产生,在大数据的背景下,数据挖掘的一个重要课题就是如何消除同名实体的歧义。此课题在学术知识库建设、信息检索、自动问答、推荐系统等领域普遍存在且具有重要的研究意义。近年来,大量学者对该课题进行了深入研究。但是,目前的学术搜索系统中,存在着大量的论文与真实作者匹配错误的情况,其中很多是在作者名称消歧系统运行时产生的历史错误,并且这些错误会随着系统论文数量的增加而逐渐扩大。
[0003]在对该现象的进一步调查中,主要分为以下两种情形,论文过合并与论文过拆分问题。过合并即为将多位同名作者的论文分配到某一人名下,过拆分即为将属于一个作者的文章拆成多个作者。目前这两种现象广泛出现在作者名称消歧(AND)算法的运行过程,并且这些错误如果不提高重视并加以解决的话会严重影响到后续算法的稳定执行,此问题是当前AND研究中的一大挑战。
技术实现思路
[0004]本专利技术的目的是提供一种基于解耦表征和异构图软硬注意力网络的消歧方法,解决了现有技术中存在的缺陷。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于解耦表征和异构图软硬注意力网络的消歧方法,包括以下步骤:
[0007]S1、数据清洗及预处理,将论文数据存入非结构化数据库Mo ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,包括以下步骤:S1、数据清洗及预处理,将论文数据存入非结构化数据库MongoDB,删除数据中的重复值,按照一定规则对缺失值进行补全,同时对命名不一致的属性进行一致化处理;S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;S4、以准确率为原则,对论文进行初始化聚类;S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;S6、获得论文消歧结果。2.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S2包括:S21、使用语言预训练模型OAG_BERT获取论文表征:其中,P
ia
表示为论文作者名称为a的论文i,为该论文对应的向量表示;S22、构造正例对构造反例对并对正例对和负例对进行组合;S23、引入训练的目标函数h=f(bert(x)),训练的目标损失l
i
为:其中,N是最小batch size,τ是超参数,sim(h1,h2)是余弦相似度;S24、经过训练后得到论文作者名称表征向量3.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S3包括:S31、将论文作者名称表征向量输入变分自编码模型,变分自编码器VAE中,通过训练获得表征向量z,loss函数为:F(θ,φ,β;emb,z)≥L(θ,φ;emb,z,β)=E
qφ
(z|emb)[logp
θ
(emb|z)]
‑
βD
KL
(q
φ
(z|emb)||p(z))其中,θ,φ为模型参数,β是控制解耦程度的超参数,z为隐向量;S32、调整超参数β,获得最佳的实体解耦表征z,所述解耦量化指标具体为:其中,L为采样个数,为第1个采样样本与其固定单个维度的变换后样本之间的绝对值。
4.根据权利要求1所述的一种基于解耦表征和异构图软硬注意力网络的消歧方法,其特征在于,所述S4包括:S41、将聚类过程作为消歧的初始过程,以准确率为原则,按照距离指标将论文划分成更多的簇;S42、通过LightGBN模型进行向量聚类,构建作者实体簇候选集;S43、提出指标Recall
over
‑
merge
去描述聚类结果的过合并现象,所述指标Recall
over
‑
merge
为:其中,TP表示两个同一作者论文在同一个簇中的情况数量;FN表示两个同一作者论文分别在两个簇中的情况数量;M为理想聚类结果数,N为实际聚簇结果数;Recall
over
‑
merge
技术研发人员:宫继兵,彭吉全,房小涵,赵金烨,林宇庭,
申请(专利权)人:燕山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。