【技术实现步骤摘要】
本专利技术属于机器学习,涉及一种冷启动同名消歧方法,尤其涉及一种基于多任务学习的冷启动同名消歧方法。
技术介绍
1、近年来,随着在线学术系统如谷歌学术、dblp、aminer等在学术界的广泛应用,它们已成为研究人员获取领域内最新研究动态的重要渠道。除此之外,这些系统还为学术资助决策、个人职业提升等科研决策提供了关键的分析支持。因此,确保在线学术系统中数据信息的高质量变得至关重要。然而,随着学术论文数量的快速增长,由于姓名相同导致的学者身份混淆问题日益严峻,这不仅包括同一学者的多种姓名变体,也涉及不同学者共用同一姓名或存在同音姓名的情况。姓名歧义问题因此成为学术界关注的焦点,特别是在解决冷启动同名消歧任务方面,已经开发出众多方法。
2、目前,这些冷启动同名消歧方法主要可以根据是否依赖于构建基于论文关系的图来进行分类:
3、1、非图基同名消歧方法:这类方法通常依赖于手工定义的特征来量化论文成对相似度。这些相似度特征主要有两个类别:关系特征和语义特征。一方面,关系特征通常包含了共同作者,举例来说,有三篇论文在系统中都被
...【技术保护点】
1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:
3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;
4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:
5.根据权利要求4所述的基于
...【技术特征摘要】
1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:
3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;
4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:
5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。
6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于...
【专利技术属性】
技术研发人员:程煜晴,陈波,张帆进,韩天翼,张鹏,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。