System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多任务学习的冷启动同名消歧方法技术_技高网

一种基于多任务学习的冷启动同名消歧方法技术

技术编号:42208060 阅读:13 留言:0更新日期:2024-07-30 18:51
本发明专利技术属于机器学习技术领域,涉及一种基于多任务学习的冷启动同名消歧方法,其包括:论文信息预处理;构建论文的多视角图;获得多视角图的节点低维表示;计算局部度量损失;产生伪聚类标签;获得中间结果;基于伪聚类标签和中间结果计算全局聚类损失;基于局部度量损失和全局聚类损失进行联合优化;基于联合优化的结果预测论文聚类簇,以获得消歧结果。其能够在一个端到端的框架内共同学习论文多视角图中的局部与全局信息,从而能够实现更加精确和有效的同名消歧。

【技术实现步骤摘要】

本专利技术属于机器学习,涉及一种冷启动同名消歧方法,尤其涉及一种基于多任务学习的冷启动同名消歧方法


技术介绍

1、近年来,随着在线学术系统如谷歌学术、dblp、aminer等在学术界的广泛应用,它们已成为研究人员获取领域内最新研究动态的重要渠道。除此之外,这些系统还为学术资助决策、个人职业提升等科研决策提供了关键的分析支持。因此,确保在线学术系统中数据信息的高质量变得至关重要。然而,随着学术论文数量的快速增长,由于姓名相同导致的学者身份混淆问题日益严峻,这不仅包括同一学者的多种姓名变体,也涉及不同学者共用同一姓名或存在同音姓名的情况。姓名歧义问题因此成为学术界关注的焦点,特别是在解决冷启动同名消歧任务方面,已经开发出众多方法。

2、目前,这些冷启动同名消歧方法主要可以根据是否依赖于构建基于论文关系的图来进行分类:

3、1、非图基同名消歧方法:这类方法通常依赖于手工定义的特征来量化论文成对相似度。这些相似度特征主要有两个类别:关系特征和语义特征。一方面,关系特征通常包含了共同作者,举例来说,有三篇论文在系统中都被归类至待消歧学者姓名“yang yang”之下,在三篇论文的作者列表中,除待消歧作者本人外,还有“yizhou sun”这一位共同作者,那么,这三篇文献之间就形成了共同作者关系,这一信息是基于社交关系区分作者的关键。另一方面,语义特征通常从各种论文属性中提取,如论文标题、摘要、关键词等,旨在根据研究主题的连贯性来区分是否为同一作者。然而,这些方法在有效利用论文关系图中的复杂高阶结构上存在局限性。</p>

4、2、基于图的同名消歧方法:这类方法的共同点是需要构建异构图或同构图以利用高阶结构信息。随着网络表示学习和图神经网络的发展,一些代表性方法已被整合到同名消歧问题中,使得通过从邻近节点聚合信息来利用节点特征和图结构成为可能。一个典型的例子是在消歧中结合了两种类型的图:一个是通过连接具有共同作者的论文建立的图;一个是通过估计论文之间内容相似度建立的图。这类方法都遵循上一段讨论的关系和语义特征规律。然而,这些方法通常分别进行论文相似度学习和聚类学习,因此面临着两阶段信息无法互通的问题。

5、聚类学习是冷启动同名消歧的另一项重要技术,其中关键问题是如何估计聚类的数量。其中,有人采用层次聚类算法(hierarchical clustering algorithms,hac),主张将具有较高相似度的论文最先合并,随后合并初步簇类来进行再聚类。例如,其中一个两阶段方法使用了初始阶段的聚类结果来生成后续的聚类特征。此外,另几种方法结合了谱聚类(spectral clustering)以提高聚类学习的效率。

6、目前,用于冷启动同名消歧的聚类学习方法主要有以下几种:

7、1、louppe et al(参见论文:gilleslouppe,husseintal-natsheh,mateuszsusik,andeamonnjamesmaguire.2016.ethnicity sensitive author disambiguation usingsemi-supervised learning.in knowledge engineering and semantic web:7thinternational conference.272–287.https://doi.org/10.1007/978-3-319-45880-9_21):针对每对论文训练分类模型,旨在确定它们是否由同一个人撰写。其利用手工设计的特征和半监督的策略来形成论文簇类。

8、2、iuad(参见论文:na li,renyu zhu,xiaoxu zhou,xiangnan he,wenyuan cai,ming gao,and aoying zhou.2021.on disambiguating authors:collaboration networkrecon-struction in a bottom-up manner.in 2021ieee 37th internationalconference on data engineering.888–899.):根据共同作者关系构建论文相似度图。使用了结合网络结构、研究兴趣、科研社区的概率生成模型来对图进行增强。

9、3、g/l-emb(参见论文:yutaozhang,fanjinzhang,peiranyao,andjietang.2018.namedisambiguation in aminer:clustering,maintenance,and human in the loop..inproceedings of the 24th acm sigkddinternational conference on knowledgediscovery&data mining.1002–1011.https://doi.org/10.1145/3219819.3219859):使用了论文之间的共同作者构建论文图,并通过重构图来学习论文低维表示,并使用hac进行聚类。

10、4、land(参见论文:cristiansantini,genetasefagesese,silvioperoni,aldogangemi,haraldsack,and mehwish alam.2022.a knowledge graph embeddingsbased approach for author name disambiguation using literals.scientometrics127,8(2022),4887–4912.https://doi.org/10.1007/s11192-022-04426-2):构建了具有论文、作者和机构实体和多种关系的知识图谱,使用bert模型来初始化实体特征,并使用literale来进行知识表示学习。同样使用hac作为聚类方法。

11、5、phnet(参见论文:ziyue qiao,yi du,yanjie fu,pengfei wang,and yuanchunzhou.2019.un-supervised author disambiguation using heterogeneous graphconvolutional network embedding.in 2019ieee international conference on bigdata.910–919.https://doi.org/10.1109/bigdata47090.2019.9005458):建构了一个异构图,并使用异构图神经网络来学习节点表示。使用基于图增强的hac算法进行聚类,但需要人为定义聚类大小,具有一定局限性。

12、6、snd-all(参见论文:bo chen,jing zhang,fanjin zhang,tianyi han,yuqingcheng,xiaoyan li,yuxiao本文档来自技高网...

【技术保护点】

1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:

3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;

4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:

5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。

6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于,通过图编码器获得所述多视角图的节点低维表示时,使用两层图注意力网络作为图编码器,每一层图注意力网络的输入为上一层的节点低维表示,输出为本层的节点低维表示,且其第一层的输入为论文的语义向量。

7.根据权利要求6所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于重构后的邻接矩阵和所述多视角图的原始邻接矩阵计算局部度量损失具体为:

8.根据权利要求7所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述伪聚类标签和中间结果计算全局聚类损失具体为:

9.根据权利要求8所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述局部度量损失和全局聚类损失进行联合优化具体为:

10.根据权利要求9所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述联合优化的结果预测论文聚类簇,以获得消歧结果具体为:取最后一轮训练产生的伪聚类标签作为最终消歧结果。

...

【技术特征摘要】

1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:

3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;

4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:

5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。

6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于...

【专利技术属性】
技术研发人员:程煜晴陈波张帆进韩天翼张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1