System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于机器学习,涉及一种冷启动同名消歧方法,尤其涉及一种基于多任务学习的冷启动同名消歧方法。
技术介绍
1、近年来,随着在线学术系统如谷歌学术、dblp、aminer等在学术界的广泛应用,它们已成为研究人员获取领域内最新研究动态的重要渠道。除此之外,这些系统还为学术资助决策、个人职业提升等科研决策提供了关键的分析支持。因此,确保在线学术系统中数据信息的高质量变得至关重要。然而,随着学术论文数量的快速增长,由于姓名相同导致的学者身份混淆问题日益严峻,这不仅包括同一学者的多种姓名变体,也涉及不同学者共用同一姓名或存在同音姓名的情况。姓名歧义问题因此成为学术界关注的焦点,特别是在解决冷启动同名消歧任务方面,已经开发出众多方法。
2、目前,这些冷启动同名消歧方法主要可以根据是否依赖于构建基于论文关系的图来进行分类:
3、1、非图基同名消歧方法:这类方法通常依赖于手工定义的特征来量化论文成对相似度。这些相似度特征主要有两个类别:关系特征和语义特征。一方面,关系特征通常包含了共同作者,举例来说,有三篇论文在系统中都被归类至待消歧学者姓名“yang yang”之下,在三篇论文的作者列表中,除待消歧作者本人外,还有“yizhou sun”这一位共同作者,那么,这三篇文献之间就形成了共同作者关系,这一信息是基于社交关系区分作者的关键。另一方面,语义特征通常从各种论文属性中提取,如论文标题、摘要、关键词等,旨在根据研究主题的连贯性来区分是否为同一作者。然而,这些方法在有效利用论文关系图中的复杂高阶结构上存在局限性。<
...【技术保护点】
1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:
3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;
4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:
5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。
6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于,通过图编码器获得所述多视角图的节点低维表示时,使用两层图注意力网络作为图编码器,每一层图注意力网络的输入为上一层的节点低维表示,输出为本层的节点低维表示,且其第一层的输
7.根据权利要求6所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于重构后的邻接矩阵和所述多视角图的原始邻接矩阵计算局部度量损失具体为:
8.根据权利要求7所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述伪聚类标签和中间结果计算全局聚类损失具体为:
9.根据权利要求8所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述局部度量损失和全局聚类损失进行联合优化具体为:
10.根据权利要求9所述的基于多任务学习的冷启动同名消歧方法,其特征在于,基于所述联合优化的结果预测论文聚类簇,以获得消歧结果具体为:取最后一轮训练产生的伪聚类标签作为最终消歧结果。
...【技术特征摘要】
1.一种基于多任务学习的冷启动同名消歧方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述论文信息预处理具体包括:
3.根据权利要求2所述的基于多任务学习的冷启动同名消歧方法,其特征在于,所述对这一段文本进行预处理具体包括:字母小写化、去除各种非字母的符号、去掉多余的空格、以空格分词、去掉停用词和长度小于3的词;
4.根据权利要求3所述的基于多任务学习的冷启动同名消歧方法,其特征在于,根据预处理后的论文信息构建论文的多视角图具体包括:
5.根据权利要求4所述的基于多任务学习的冷启动同名消歧方法,其特征在于,对于共同作者和共同发表期刊,使用文本重叠度来计算相似度,对于共同作者机构,采用杰卡德系数作为相似度的度量标准。
6.根据权利要求1-5中任一项所述的基于多任务学习的冷启动同名消歧方法,其特征在于...
【专利技术属性】
技术研发人员:程煜晴,陈波,张帆进,韩天翼,张鹏,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。