一种作者命名消歧的方法、装置和电子设备制造方法及图纸

技术编号:26342630 阅读:25 留言:0更新日期:2020-11-13 20:36
本发明专利技术公开了一种作者命名消歧的方法、装置和电子设备。该方法包括:根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。在实际工作中,采用本发明专利技术提供的方法对大数据集进行命名消歧,在不损失召回以及精度的前提下,达到了高效可扩展的效果。所以,本发明专利技术提供的方法为超大数据集的命名消歧提供了有效的解决办法。

【技术实现步骤摘要】
一种作者命名消歧的方法、装置和电子设备
本专利技术涉及电子数据处理
,尤其涉及一种作者命名消歧的方法、装置和电子设备。
技术介绍
作者姓名歧义是数字图书馆等学术数据集中经常遇到的问题。这一问题产生的主要原因是不同作者可能以相同名称发表论文,而同一作者可能因缩写、昵称等原因以不同的名称发表论文。命名消歧正是解决这一问题的关键。在数字图书馆的文献管理、学术搜索和社会网络分析等许多应用中,命名消歧一直被视为一个具有挑战性的问题。目前,命名消歧通常是独立的采用聚类算法或者分类算法。例如KunhoKim提出的GradientBoostedTrees分类方法在实验集上获得了7.45%的提升。其基本思想是从论文(paper)中提取作者的元数据title、venue、keyword、coauthor组合structure-aware特征,通过采用表示学习的方法,从一个DNN网络对paper文本抽取全局语义特征向量,将该向量结合到structure-aware特征中。又比如Wu提出了利用Dempster-Shafer理论(DST)结合Shannon本文档来自技高网...

【技术保护点】
1.一种作者命名消歧的方法,其特征在于,包括:/n根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;/n对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;/n对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。/n

【技术特征摘要】
1.一种作者命名消歧的方法,其特征在于,包括:
根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者;
对于不能确定唯一作者的论文,利用论文的相关信息搜索所述学术数据集获取备选论文集;
对所述备选论文集中的论文进行聚类得到多个类别,并对所述备选论文集中的论文进行反向分类确定其所在的类别,按照所述类别为论文创建唯一作者。


2.如权利要求1所述的作者命名消歧的方法,其特征在于,所述根据论文的相关信息,利用预先训练的分类模型从学术数据集中确定所述论文的唯一作者包括:
根据论文的作者姓名及机构名称从所述学术数据集中获取多个备选专家,利用预先训练的分类模型计算每个备选专家的得分,将得分最高的备选专家确定为所述论文的唯一作者。


3.如权利要求1所述的作者命名消歧的方法,其特征在于,所述利用论文的相关信息搜索所述学术数据集获取备选论文集包括:
根据论文的作者姓名及机构名称搜索所述学术数据集;
若搜索到的论文数量大于预设阈值,则将所述论文和所述搜索到的论文组合得到所述备选论文集。


4.如权利要求1所述的作者命名消歧的方法,其特征在于,还包括:对确定的唯一作者或创建的唯一作者及其论文进行筛选。


5.如权利要求4所述的作者命名消歧的方法,其特征在于,所述对确定的唯一作者或创建的唯一作者及其论文进行筛选,包括:
根据作者的论文发...

【专利技术属性】
技术研发人员:宋健唐杰刘德兵高博仇瑜鄢兴雨陈波张惠聪
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1