当前位置: 首页 > 专利查询>燕山大学专利>正文

基于预训练模型与决策树的增量式论文同名作者消歧方法技术

技术编号:35567969 阅读:13 留言:0更新日期:2022-11-12 15:51
本发明专利技术公开了基于预训练模型与决策树的增量式论文同名作者消歧方法,属于神经网络与作者同名消歧技术领域,所述方法利用人工定义特征与XLNet提取特征相结合的特征提取,首先使用人工定义特征提取论文中作者名称、机构等字段的信息,使用XLNet提取论文标题、摘要等字段的信息,之后利用XGBoost与提取出的特征来预测每篇论文应该归属的正确作者,对于该步未能分配出的论文进行凝聚式聚类的后处理,获取主聚类作为新的作者论文集,预测结果使用准确率、召回率以及F1值。本发明专利技术能够对论文的信息进行更加充分地提取,具有较强的可解释性,具有较强的鲁棒性,在处理噪点较多以及论文信息较为齐全的数据上有较优秀的表现。较为齐全的数据上有较优秀的表现。较为齐全的数据上有较优秀的表现。

【技术实现步骤摘要】
基于预训练模型与决策树的增量式论文同名作者消歧方法


[0001]本专利技术涉及神经网络与作者同名消歧相关领域,尤其是基于预训练模型与决策树的增量式论文同名作者消歧方法。

技术介绍

[0002]随着信息技术的发展,信息的规模、存储方式、获取方式等都出现了较大的变化,各种学术搜索引擎例如知网、Aminer、DBLP、微软学术搜索、谷歌学术、PubMed等也随之出现。这些搜索引擎也成了学者获取各种论文信息的主要途径。当然,在使用搜索引擎时并不只是使用关键字进行搜索,还会使用作者的名称进行搜索。但是由于近年来各类学科的发展和研究者的增多,各种搜索引擎的数据库中的数据量也随之增多,同名作者数量也随之出现大量增长的情况。为了解决这些问题,对于作者同名消歧的研究也随之出现。
[0003]作者同名消歧属于实体消歧的一种研究领域,最初同名消歧研究的重点主要是根据数据库中已有的文献进行冷启动消歧,又称批处理消歧。这种方法需要对数据库已有的全部文献进行同名消歧处理,但该方法计算量大,时间复杂度高,人工纠错后的数据难以在消歧系统更新后保存。在现实中,每天都有大量的不同文献被加入到数据库中,再使用这样的消歧算法会导致消歧算法的时效性变得很差。同时,如果每次都在新文献加入到数据库中之后都使用消歧算法重新计算一次,那么服务器的负担也会变得巨大无比。因此,对增量消歧算法的研究有着重要的研究意义。
[0004]增量消歧就是在已有的消歧结果基础上,对每一条新增的数据进行单独的处理,而不是在新增数据后对整个数据库重新进行消歧处理,新增数据的处理结果有两种,一种是分配给已有的作者,另一种是创建一名新的作者。相较于冷启动消歧而言,增量消歧具有避免对数据库频繁进行整体重新消歧操作,从而降低了算法的时间复杂度以及服务器的负担。虽然增量消歧有众多优点,但也不可避免的存在着缺点,那就是增量消歧需要一个规模较大且精准的已完成消歧的数据集上。
[0005]总而言之,作者同名消歧是一个具有挑战性且工作量较大的数据管理任务。消除作者同名造成的歧义问题可以使搜索引擎的搜索结果更加准确,而搜索结果的准确性又会影响到知识图谱的构建以及个性化服务。因此,研究相关的算法来解决作者同名歧义问题有着巨大的研究价值。

技术实现思路

[0006]本专利技术需要解决的技术问题是提供基于预训练模型与决策树的增量式论文同名作者消歧方法,针对论文信息利用不够充分的问题,从增量消歧和充分利用论文信息两个方向出发,以充分利用信息、关注新增论文为目的。
[0007]为解决上述技术问题,本专利技术所采用的技术方案是:
[0008]一种基于预训练模型与决策树的增量式论文同名作者消歧方法,包括以下步骤:
[0009]S1,构建数据集,对作者名称、候选集ID、论文ID、论文信息进行数据预处理;
[0010]S2,使用人工定义规则的方式提取不含语义信息字段的第一特征,使用XLNet预训练模型提取含有语义信息字段的第二特征,将第一特征和第二特征合并到一起得到所需特征向量;
[0011]S3,将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率,并据此判断是否将待分配论文分配给该候选集;
[0012]S4、构建基于凝聚式层次聚类的增量消岐后处理框架,对增量S3中未能分配出去的论文进行后处理操作。
[0013]本专利技术技术方案的进一步改进在于:所述第一特征至少包括作者名称、机构,所述第二特征至少包括论文标题、摘要。
[0014]本专利技术技术方案的进一步改进在于:S2具体包括:
[0015]2.1,比较待分配论文与候选集中所有论文之间的作者信息,各值表示如下:
[0016]count
a
:同名作者的数量,每次出现同名作者时都会令该值+1,当一个作者名重复出现时同样会对该值进行+1操作;
[0017]count
oa
:同名且同组织作者的数量,每次出现同名且同组织作者时都会令该值+1,当一个同名且同组织作者重复出现时同样会对该值进行+1操作;
[0018]r
a
:同名作者数量与候选集中论文数量的比值,即
[0019]r
oa
:同名且同组织作者与候选集中论文数量的比值,即
[0020]count
ca
:共同作者的数量,每次出现共同作者时都会令该值+1,当一个作者重复出现时,不再对该值进行操作;
[0021]r
ca
:共同作者的数量与待分配论文中作者数量的比值,即
[0022]t
ca
:共同作者在这个候选集c
k
中一共出现的次数;
[0023]共同作者出现次数与该候选集c
k
中作者总数t
a
的比值,即
[0024]在完成比较后将这些值排列在一起组成一个向量一,所述向量一为提取出的作者名称相关特征;
[0025]2.2,比较待分配论文与候选集中所有论文之间的作者机构信息,各值表示如下:
[0026]count
org
:待分配论文p
a
与候选集c
k
中所有相同机构的数量;
[0027]r
org
:相同机构数量与所有机构数量count
aorg
之间的比值,即之间的比值,即
[0028]Jaccard
max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似系数的最大值,即
[0029]Jaccard
mean
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似系数的均值,即
[0030]Jaccard
pooling
:分词合并处理后,经过高斯核函数处理后的Jaccard相似系数,为一个n维向量,其中n表示输入的中心点数量;
[0031]r

max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间相同机构数与所
有机构数比值的最大值,即
[0032]r

mean
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间相同机构数与所有机构数比值的平均值
[0033]r

pooling
:分词合并处理后,经过高斯核函数处理后的相同机构数与所有机构数的比值,为一个n维向量,其中n表示输入的中心点数量;
[0034]在完成比较后将这些值排列在一起组成一个向量二,所述向量二为提取出的作者机构相关特征;
[0035]2.3,比较待分配论文与候选集中所有论文之间的标题信息,各值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:包括以下步骤:S1,构建数据集,对作者名称、候选集ID、论文ID、论文信息进行数据预处理;S2,使用人工定义规则的方式提取不含语义信息字段的第一特征,使用XLNet预训练模型提取含有语义信息字段的第二特征,将第一特征和第二特征合并到一起得到所需特征向量;S3,将S2中得到的特征向量输入到XGBoost中获取待分配论文属于该候选集的概率,并据此判断是否将待分配论文分配给该候选集;S4、构建基于凝聚式层次聚类的增量消岐后处理框架,对增量S3中未能分配出去的论文进行后处理操作。2.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:所述第一特征至少包括作者名称、机构,所述第二特征至少包括论文标题、摘要。3.根据权利要求1所述的一种基于预训练模型与决策树的增量式论文同名作者消歧方法,其特征在于:S2具体包括:2.1,比较待分配论文与候选集中所有论文之间的作者信息,各值表示如下:count
a
:同名作者的数量,每次出现同名作者时都会令该值+1,当一个作者名重复出现时同样会对该值进行+1操作;count
oa
:同名且同组织作者的数量,每次出现同名且同组织作者时都会令该值+1,当一个同名且同组织作者重复出现时同样会对该值进行+1操作;r
a
:同名作者数量与候选集中论文数量的比值,即r
oa
:同名且同组织作者与候选集中论文数量的比值,即count
ca
:共同作者的数量,每次出现共同作者时都会令该值+1,当一个作者重复出现时,不再对该值进行操作;r
ca
:共同作者的数量与待分配论文中作者数量的比值,即t
ca
:共同作者在这个候选集c
k
中一共出现的次数;共同作者出现次数与该候选集c
k
中作者总数t
a
的比值,即在完成比较后将这些值排列在一起组成一个向量一,所述向量一为提取出的作者名称相关特征;2.2,比较待分配论文与候选集中所有论文之间的作者机构信息,各值表示如下:count
org
:待分配论文p
a
与候选集c
k
中所有相同机构的数量;r
org
:相同机构数量与所有机构数量count
aorg
之间的比值,即之间的比值,即Jaccard
max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似
系数的最大值,即Jaccard
mean
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间的Jaccard相似系数的均值,即Jaccard
pooling
:分词合并处理后,经过高斯核函数处理后的Jaccard相似系数,为一个n维向量,其中n表示输入的中心点数量;r

max
:分词合并处理后,待分配论文p
a
与候选集c
k
中所有论文之间相同机构数与所有机构数比值的最大值,即r

mean
:分词合并处理后,待分配论文p
a
与候选集...

【专利技术属性】
技术研发人员:宫继兵郑嘉壮房小涵寇肖萌赵祎丛方鹏
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1