一种作者命名消歧的方法、装置和电子设备制造方法及图纸

技术编号:26342630 阅读:22 留言:0更新日期:2020-11-13 20:36
本发明专利技术公开了一种作者命名消歧的方法、装置和电子设备。该方法包括:根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。在实际工作中,采用本发明专利技术提供的方法对大数据集进行命名消歧,在不损失召回以及精度的前提下,达到了高效可扩展的效果。所以,本发明专利技术提供的方法为超大数据集的命名消歧提供了有效的解决办法。

【技术实现步骤摘要】
一种作者命名消歧的方法、装置和电子设备
本专利技术涉及电子数据处理
,尤其涉及一种作者命名消歧的方法、装置和电子设备。
技术介绍
作者姓名歧义是数字图书馆等学术数据集中经常遇到的问题。这一问题产生的主要原因是不同作者可能以相同名称发表论文,而同一作者可能因缩写、昵称等原因以不同的名称发表论文。命名消歧正是解决这一问题的关键。在数字图书馆的文献管理、学术搜索和社会网络分析等许多应用中,命名消歧一直被视为一个具有挑战性的问题。目前,命名消歧通常是独立的采用聚类算法或者分类算法。例如KunhoKim提出的GradientBoostedTrees分类方法在实验集上获得了7.45%的提升。其基本思想是从论文(paper)中提取作者的元数据title、venue、keyword、coauthor组合structure-aware特征,通过采用表示学习的方法,从一个DNN网络对paper文本抽取全局语义特征向量,将该向量结合到structure-aware特征中。又比如Wu提出了利用Dempster-Shafer理论(DST)结合Shannon进行作者命名消歧的聚类算法,通过对affiliation、venue、co-authors、citations这些基础信息的抽取,利用相似度算法,采用基于DST的层次聚类算法进行冷启动的命名消歧。还有完全基于姓名匹配的方法,比如WeishengChin基于字符串匹配的方法,首先通过姓名匹配,之后收集例如affiliation的背景信息进行匹配。然而,对于例如AMiner(AMiner数据集本身拥有1.3亿的专家和2亿的论文,相较于DBLP、PubMed而言,数据量是其数十倍)的包括上亿数据的大数据集而言,作者的命名消歧是项更为复杂的工作,既要考虑算法的精度,又要考虑算法的速度;既要考虑现有数据,又要考虑每日增长的新数据。上述现有算法仅适合在相对较小的数据集上进行操作,一旦放在大数据集上运行时,就会出现召回问题,且速度较慢、精度不足。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供了如下的技术方案。本专利技术提供了一种作者命名消歧的方法,包括:根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。优选地,所述根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者包括:根据论文的作者姓名及机构名称从所述学术数据集中获取多个备选专家,利用预先训练的分类模型计算每个备选专家的得分,将得分最高的备选专家确定为所述论文的唯一作者。优选地,所述利用论文的相关信息搜索所述学术数据集获取备选论文集包括:根据论文的作者姓名及机构名称搜索所述学术数据集;若搜索到的论文数量大于预设阈值,则将所述论文和所述搜索到的论文组合得到所述备选论文集。优选地,还包括:对确定的唯一作者或创建的唯一作者及其论文进行筛选。优选地,所述对确定的唯一作者或创建的唯一作者及其论文进行筛选,包括:根据作者的论文发表年限进行筛选;和/或根据作者的姓名匹配进行筛选;和/或根据论文的语义离群点进行筛选。优选地,还包括:对于不能创建唯一作者的论文或筛选未通过的论文,进行人工标注,并将人工标注的作者及其论文反馈到所述学术数据集中。优选地,所述学术数据集采用elasticsearch集群进行数据存储,并采用redis缓存型的数据库对数据进行缓存。本专利技术第二方面提供了一种作者命名消歧的装置,包括:唯一作者确定模块,用于根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;备选论文集获取模块,用于对于不能确定唯一作者的论文,利用论文的相关信息搜索学术数据集获取备选论文集;唯一作者创建模块,用于对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。本专利技术第三方面提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。本专利技术第四方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。本专利技术提供的作者命名消歧的方法、装置和电子设备,集成了分类和聚类方法,并将分类处理作为聚类处理的阈值,应用于亿级数据集的实时命名消歧,有效解决了召回问题并且速度较快,并达到了高效可扩展的效果,为超大数据集的命名消歧提供了有效的解决办法。附图说明图1为本专利技术所述作者命名消歧的方法流程示意图;图2为本专利技术所述作者命名消歧的装置结构示意图。具体实施方式为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。存储器可以包括随机存储器(RandomAccessMemory,RAM),也可以包括只读存储器(Read-OnlyMemory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。显示屏用于显示各个应用程序的用户界面。除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。实施例一如图1所示,本专利技术实施例提供了一种作者命名消歧的方法,包括:S101,根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;S102,对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;S103,对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。本实施例提供的方法集成分类和聚类处理进行消歧,分类处理作为聚类处理的阈值,有效解决了召回问题并且速度较快,可以应用于亿级数据集的实时命名消歧,为超大数据集的命名消歧提供了有效的解决办法。在实际应用过程中,执行步骤本文档来自技高网
...

【技术保护点】
1.一种作者命名消歧的方法,其特征在于,包括:/n根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;/n对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;/n对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。/n

【技术特征摘要】
1.一种作者命名消歧的方法,其特征在于,包括:
根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;
对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;
对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。


2.如权利要求1所述的作者命名消歧的方法,其特征在于,所述根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者包括:
根据论文的作者姓名及机构名称从所述学术数据集中获取多个备选专家,利用预先训练的分类模型计算每个备选专家的得分,将得分最高的备选专家确定为所述论文的唯一作者。


3.如权利要求1所述的作者命名消歧的方法,其特征在于,所述利用论文的相关信息搜索所述学术数据集获取备选论文集包括:
根据论文的作者姓名及机构名称搜索所述学术数据集;
若搜索到的论文数量大于预设阈值,则将所述论文和所述搜索到的论文组合得到所述备选论文集。


4.如权利要求1所述的作者命名消歧的方法,其特征在于,还包括:对确定的唯一作者或创建的唯一作者及其论文进行筛选。


5.如权利要求4所述的作者命名消歧的方法,其特征在于,所述对确定的唯一作者或创建的唯一作者及其论文进行筛选,包括:
根据作者的论文发...

【专利技术属性】
技术研发人员:宋健唐杰刘德兵高博仇瑜鄢兴雨陈波张惠聪
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1