【技术实现步骤摘要】
基于预训练模型与决策树的增量式论文同名作者消歧方法
[0001]本专利技术涉及神经网络与作者同名消歧相关领域,尤其是基于预训练模型与决策树的增量式论文同名作者消歧方法。
技术介绍
[0002]随着信息技术的发展,信息的规模、存储方式、获取方式等都出现了较大的变化,各种学术搜索引擎例如知网、Aminer、DBLP、微软学术搜索、谷歌学术、PubMed等也随之出现。这些搜索引擎也成了学者获取各种论文信息的主要途径。当然,在使用搜索引擎时并不只是使用关键字进行搜索,还会使用作者的名称进行搜索。但是由于近年来各类学科的发展和研究者的增多,各种搜索引擎的数据库中的数据量也随之增多,同名作者数量也随之出现大量增长的情况。为了解决这些问题,对于作者同名消歧的研究也随之出现。
[0003]作者同名消歧属于实体消歧的一种研究领域,最初同名消歧研究的重点主要是根据数据库中已有的文献进行冷启动消歧,又称批处理消歧。这种方法需要对数据库已有的全部文献进行同名消歧处理,但该方法计算量大,时间复杂度高,人工纠错后的数据难以在消歧系统更新后保存。在现实中,每天都有大量的不同文献被加入到数据库中,再使用这样的消歧算法会导致消歧算法的时效性变得很差。同时,如果每次都在新文献加入到数据库中之后都使用消歧算法重新计算一次,那么服务器的负担也会变得巨大无比。因此,对增量消歧算法的研究有着重要的研究意义。
[0004]增量消歧就是在已有的消歧结果基础上,对每一条新增的数据进行单独的处理,而不是在新增数据后对整个数据库重新进行消歧处理,新增数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:包括以下步骤:S1,构建数据集,对作者名称、候选集ID、论文ID、论文信息进行数据预处理;S2,使用人工定义规则的方式提取不含语义信息字段的第一特征,使用XLNet预训练模型提取含有语义信息字段的第二特征,将第一特征和第二特征合并到一起得到所需特征向量;S3,将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率,并据此判断是否将待分配论文分配给该候选集;S4、构建基于凝聚式层次聚类的增量消岐后处理框架,对增量S3中未能分配出去的论文进行后处理操作。2.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:所述第一特征至少包括作者名称、机构,所述第二特征至少包括论文标题、摘要。3.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:S2具体包括:2.1,比较待分配论文与候选集中所有论文之间的作者信息,各值表示如下:count
a
:同名作者的数量,每次出现同名作者时都会令该值+1,当一个作者名重复出现时同样会对该值进行+1操作;count
oa
:同名且同组织作者的数量,每次出现同名且同组织作者时都会令该值+1,当一个同名且同组织作者重复出现时同样会对该值进行+1操作;r
a
:同名作者数量与候选集中论文数量的比值,即r
oa
:同名且同组织作者与候选集中论文数量的比值,即count
ca
:共同作者的数量,每次出现共同作者时都会令该值+1,当一个作者重复出现时,不再对该值进行操作;r
ca
:共同作者的数量与待分配论文中作者数量的比值,即t
ca
:共同作者在这个候选集c
k
中一共出现的次数;共同作者出现次数与该候选集c
k
中作者总数t
a
的比值,即在完成比较后将这些值排列在一起组成一个向量一,所述向量一为提取出的作者名称相关特征;2.2,比较待分配论文与候选集中所有论文之间的作者机构信息,各值表示如下:count
org
:待分配论文p
a
与候选集c
k
中所有相同机构的数量;r
org
:相同机构数量与所有机构数量count
aorg
之间的比值,即之间的比值,即Jaccard
max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似
系数的最大值,即Jaccard
mean
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似系数的均值,即Jaccard
pooling
:分词合并处理后,经过高斯核函数处理后的Jaccard相似系数,为一个n维向量,其中n表示输入的中心点数量;r
′
max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间相同机构数与所有机构数比值的最大值,即r
′
mean
:分词合并处理后,待分配论文p
a
与候选集...
【专利技术属性】
技术研发人员:宫继兵,郑嘉壮,房小涵,寇肖萌,赵祎,丛方鹏,
申请(专利权)人:燕山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。