基于自然语言处理和社交网络的科研成果归属预测方法及系统技术方案

技术编号:38636763 阅读:11 留言:0更新日期:2023-08-31 18:32
本发明专利技术公开了一种基于自然语言处理和社交网络的科研成果归属预测方法及系统,首先,基于现有的科研成果认领平台构建训练样本库,再基于预训练模型训练二分类任务模型,并构建科研人员合作网络,构建科研成果属性过滤模块,最后通过对未认领科研成果进行归属打分的方式完成科研成果的归属预测。本发明专利技术能够充分利用科研成果之间的发展关系和科研人员之间合作的信息,更加准确的得到科研成果的归属预测结果,减少人工参与的同时大大提高成果归属预测的准确性。预测的准确性。预测的准确性。

【技术实现步骤摘要】
基于自然语言处理和社交网络的科研成果归属预测方法及系统


[0001]本专利技术属于信息
,主要涉及了一种基于自然语言处理和社交网络的科研成果归属预测方法及系统。

技术介绍

[0002]科研成果主要包括学术论文、专利技术专利、专著等,成果归属即把科研成果的作者与作者位次进行确定。在科研成果展示系统中,为了展现科研人员的科研学术成果,需要科研人员在成果认领平台认领已经发表的科研成果。但是由于科研成果具有时效性,科研人员通常不会主动认领过去已经不计入考核的科研成果,而历史成果数量众多、类型复杂,也无法通过科研管理人员进行确认,因而,众多的成果归属无法确认,为科研成果的可视化展示和平台后续对成果的分析造成了困难。所以在科研成果展示领域,迫切需要一个能对众多科研成果进行归属预测的方法,能够分析最新的科研成果的归属,为科研人员的成果认领提供智能推荐,也可以预测过去科研成果的数据,用于对成果的展示与分析。
[0003]现在,学术界越来越多的关注到科研成果归属预测的问题,例如已公开的中国专利技术专利申请CN114416959A“一种科研成果推送、认领方法及系统”。传统的成果归属预测方法只考虑成果的各类字段与作者的画像是否匹配,通常用科研成果的第一标签匹配作者,匹配不到或者匹配到多个作者的时候再用第二标签匹配作者,以此类推。这种做法的不足之处在于只考虑了科研成果(论文、专利、著作等)的单位、作者名称、期刊类型、成果关键字和科研工作者的单位、名称、关键字是否匹配,而对于科研人员认领成果这个行为本身价值,科研成果先后之间的联系以及科研工作者的合作关系网络没有办法顾及到,这样做的问题在于:
[0004]1.难以利用科研人员已经认领的成果与潜在成果之间的联系来确认成果的分配。科研人员的研究内容往往随着时间不断演化,同一个科研人员的成果往往不是毫无联系的,时间上相近的成果,研究领域通常较为相似或者具有一定的联系。
[0005]2.难以利用科研合作者的社交网络中包含的信息。科研成果的产出往往依靠科研人员合作,成果通常会有较多的作者,通过这些科研人员之间合作可以构建出社交网络。在实际合作关系中,往往科研人员之间的合作次数都不止一次,且社交网络呈现出社区化的情况。
[0006]随着近些年预训练模型在自然语言处理领域的重要进展,使用任务语料对模型进行少许训练即可构建适用的模型。这样通过自然语言处理的文本语义对比方式可以挖掘出科研成果之间的联系,作为科研成果作者分配的影响因素之一;同时,科研人员之间合作关系网络可以作为已经确认其中部分作者的科研成果的其他作者的归属预测的影响因素之一,更加符合科研成果逐步提升更新、群策通力合作的特点。

技术实现思路

[0007]本专利技术正是针对现有技术中科研成果归属预测时未考虑成果时间特征及科研合作关系,匹配特征单一的问题,提供一种基于自然语言处理和社交网络的科研成果归属预测方法及系统,首先,基于现有的科研成果认领平台构建训练样本库,再基于预训练模型训练二分类任务模型,并构建科研人员合作网络,构建科研成果属性过滤模块,最后通过对未认领科研成果进行归属打分的方式完成科研成果的归属预测。本专利技术能够充分利用科研成果之间的发展关系和科研人员之间合作的信息,更加准确的得到科研成果的归属预测结果,减少人工参与的同时大大提高成果归属预测的准确性。
[0008]为了实现上述目的,本专利技术采取的技术方案是:基于自然语言处理和社交网络的科研成果归属预测方法,包括如下步骤:
[0009]S1,训练样本库建立:基于现有的成果认领平台,为每个已经认领过科研成果的科研人员构建成果集合,所述成果集合中,将同一科研人员的同一类型成果按照时间排序形成列表L;
[0010]所述列表L中的任一成果p,与该成果p的前列表L
before
、该成果p的后列表L
after
共同构成正样本(p,L
before
,L
after
);
[0011]以非同一科研人员的随机成果p

替换成果p,与成果p的前列表L
before
、成果p的后列表L
after
共同构成负样本(p

,L
before
,L
after
);
[0012]S2,训练科研人员成果识别模型:将任意成果p是否在某科研人员的成果列表L中定义为一个二分类问题。基于RoBERTa构建科研人员成果识别预训练模型,将步骤S1中的正负样本集中的搜索文本通过tokenizer转换为token,然后将token转换为模型训练输入可以接受的排列格式,输入模型训练,得到科研人员成果识别模型;所述搜索文本至少包括成果关键词和标题。
[0013]S3:构建科研人员合作网络:将同一科研成果的合作者作为边的两端计算权值,计算所有的科研人员之间的边权值后,得到带权有向科研人员合作网络,其中合作网络的边权值的计算方法为:科研成果p的作者列表,按照参与程度排序为A(p)=[a1,a2,a3,

,a
n
],其中,n表示成果p的作者个数;其中作者a
i
与a
j
在成果p中的合作价值为将作者a
i
与a
j
在所有合作成果中的价值累加可以得到合作网络中边的权值为:
[0014][0015]S4:构建成果属性过滤:针对待分配成果p,基于基础属性,排除不匹配的科研人员;所述基础属性至少包括人员姓名、所属单位、发表时间;
[0016]S5:打分预测:根据科研人员成果识别模型归属概率中位数设定模型推理最低有效值S
min

[0017]对于仍未被认领的成果,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,并令集合中候选人对该成果合作归属分数S2为0;
[0018]对于已被部分合作者认领,但合作者未认领齐全的成果,其中认领的作者记为
[a1,a2,a3,

,a
n
],通过步骤S3中构建的科研人员合作网络得到候选人集合m

,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,集合中候选人对该成果原始合作归属分数其中α为系统参数,将S1高过最低有效值S
min
候选人员的S2′
进行同比例归一化得到合作归属分数S2,使其取值在0到1之间,令S1不高于最低有效值S
min
候选人员的合作归属分数S2为0;
[0019]合计S1与S2计算总分S
total
,当候选人集合中最高的S
total
>S
min
时,成果将会被归属于S
total
最高的候选人。
[0020]作为本专利技术的进一步改进,所述步骤S2中,科研人员成果识别预训练模型的构建本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理和社交网络的科研成果归属预测方法,其特征在于,包括如下步骤:S1,训练样本库建立:基于现有的成果认领平台,为每个已经认领过科研成果的科研人员构建成果集合,所述成果集合中,将同一科研人员的同一类型成果按照时间排序形成列表L;所述列表L中的任一成果p,与该成果p的前列表L
before
、该成果p的后列表L
after
共同构成正样本(p,L
before
,L
after
);以非同一科研人员的随机成果p

替换成果p,与成果p的前列表L
before
、成果p的后列表L
after
共同构成负样本(p

,L
before
,L
after
);S2,基于预训练模型训练二分类任务模型:任意选择的成果p是否在某位研究人员的成果列表L中定义为一个二分类问题,基于RoBERTa构建科研人员成果识别预训练模型,将步骤S1中的正负样本集中的搜索文本通过tokenizer转换为token,然后将token转换为模型训练输入可以接受的排列格式,输入模型训练,得到科研人员成果识别模型;所述搜索文本至少包括成果关键词和标题;S3:构建科研人员合作网络:将同一科研成果的合作者作为边的两端计算权值,计算所有的科研人员之间的边权值后,得到带权有向科研人员合作网络,其中合作网络的边权值的计算方法为:科研成果p的作者列表,按照参与程度排序为A(p)=[a1,a2,a3,

,a
n
],其中,n表示成果p的作者个数;其中作者a
i
与a
j
在成果p中的合作价值为将作者a
i
与a
j
在所有合作成果中的价值累加可以得到合作网络中边的权值为:S4:构建成果属性过滤:针对待分配成果p,基于基础属性,排除不匹配的科研人员;所述基础属性至少包括人员姓名、所属单位、发表时间;S5:打分预测:根据科研人员成果识别模型归属概率中位数设定模型推理最低有效值S
min
;对于仍未被认领的成果,基于步骤S4所述的过滤方法,构建归属候选人集合m,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,并令集合中候选人对该成果合作归属分数S2为0;对于已被部分合作者认领,但合作...

【专利技术属性】
技术研发人员:胡轶宁吴星灿李超孙吉祥王有东陈超唐洁原欣李春阳吴丹丹朱海建李亚楠
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1