一种基于多任务学习的冷启动同名消歧方法技术

技术编号:42208060 阅读:18 留言:0更新日期:2024-07-30 18:51
本发明专利技术属于机器学习技术领域,涉及一种基于多任务学习的冷启动同名消歧方法,其包括:论文信息预处理;构建论文的多视角图;获得多视角图的节点低维表示;计算局部度量损失;产生伪聚类标签;获得中间结果;基于伪聚类标签和中间结果计算全局聚类损失;基于局部度量损失和全局聚类损失进行联合优化;基于联合优化的结果预测论文聚类簇,以获得消歧结果。其能够在一个端到端的框架内共同学习论文多视角图中的局部与全局信息,从而能够实现更加精确和有效的同名消歧。

【技术实现步骤摘要】

本专利技术属于机器学习,涉及一种冷启动同名消歧方法,尤其涉及一种基于多任务学习的冷启动同名消歧方法


技术介绍

1、近年来,随着在线学术系统如谷歌学术、dblp、aminer等在学术界的广泛应用,它们已成为研究人员获取领域内最新研究动态的重要渠道。除此之外,这些系统还为学术资助决策、个人职业提升等科研决策提供了关键的分析支持。因此,确保在线学术系统中数据信息的高质量变得至关重要。然而,随着学术论文数量的快速增长,由于姓名相同导致的学者身份混淆问题日益严峻,这不仅包括同一学者的多种姓名变体,也涉及不同学者共用同一姓名或存在同音姓名的情况。姓名歧义问题因此成为学术界关注的焦点,特别是在解决冷启动同名消歧任务方面,已经开发出众多方法。

2、目前,这些冷启动同名消歧方法主要可以根据是否依赖于构建基于论文关系的图来进行分类:

3、1、非图基同名消歧方法:这类方法通常依赖于手工定义的特征来量化论文成对相似度。这些相似度特征主要有两个类别:关系特征和语义特征。一方面,关系特征通常包含了共同作者,举例来说,有三篇论文在系统中都被归类至待消歧学者姓名本文档来自技高网...

【技术保护点】

1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:

3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;

4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:

5.根据权利要求4所述的基于多任务学习的冷启动同...

【技术特征摘要】

1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:

3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;

4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:

5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。

6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于...

【专利技术属性】
技术研发人员:程煜晴陈波张帆进韩天翼张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1