【技术实现步骤摘要】
基于自然语言处理和社交网络的科研成果归属预测方法及系统
[0001]本专利技术属于信息
,主要涉及了一种基于自然语言处理和社交网络的科研成果归属预测方法及系统。
技术介绍
[0002]科研成果主要包括学术论文、专利技术专利、专著等,成果归属即把科研成果的作者与作者位次进行确定。在科研成果展示系统中,为了展现科研人员的科研学术成果,需要科研人员在成果认领平台认领已经发表的科研成果。但是由于科研成果具有时效性,科研人员通常不会主动认领过去已经不计入考核的科研成果,而历史成果数量众多、类型复杂,也无法通过科研管理人员进行确认,因而,众多的成果归属无法确认,为科研成果的可视化展示和平台后续对成果的分析造成了困难。所以在科研成果展示领域,迫切需要一个能对众多科研成果进行归属预测的方法,能够分析最新的科研成果的归属,为科研人员的成果认领提供智能推荐,也可以预测过去科研成果的数据,用于对成果的展示与分析。
[0003]现在,学术界越来越多的关注到科研成果归属预测的问题,例如已公开的中国专利技术专利申请CN114416959A“一种科研成果推送、认领方法及系统”。传统的成果归属预测方法只考虑成果的各类字段与作者的画像是否匹配,通常用科研成果的第一标签匹配作者,匹配不到或者匹配到多个作者的时候再用第二标签匹配作者,以此类推。这种做法的不足之处在于只考虑了科研成果(论文、专利、著作等)的单位、作者名称、期刊类型、成果关键字和科研工作者的单位、名称、关键字是否匹配,而对于科研人员认领成果这个行为本身价值,科研成果先后之间的联 ...
【技术保护点】
【技术特征摘要】
1.基于自然语言处理和社交网络的科研成果归属预测方法,其特征在于,包括如下步骤:S1,训练样本库建立:基于现有的成果认领平台,为每个已经认领过科研成果的科研人员构建成果集合,所述成果集合中,将同一科研人员的同一类型成果按照时间排序形成列表L;所述列表L中的任一成果p,与该成果p的前列表L
before
、该成果p的后列表L
after
共同构成正样本(p,L
before
,L
after
);以非同一科研人员的随机成果p
′
替换成果p,与成果p的前列表L
before
、成果p的后列表L
after
共同构成负样本(p
′
,L
before
,L
after
);S2,基于预训练模型训练二分类任务模型:任意选择的成果p是否在某位研究人员的成果列表L中定义为一个二分类问题,基于RoBERTa构建科研人员成果识别预训练模型,将步骤S1中的正负样本集中的搜索文本通过tokenizer转换为token,然后将token转换为模型训练输入可以接受的排列格式,输入模型训练,得到科研人员成果识别模型;所述搜索文本至少包括成果关键词和标题;S3:构建科研人员合作网络:将同一科研成果的合作者作为边的两端计算权值,计算所有的科研人员之间的边权值后,得到带权有向科研人员合作网络,其中合作网络的边权值的计算方法为:科研成果p的作者列表,按照参与程度排序为A(p)=[a1,a2,a3,
…
,a
n
],其中,n表示成果p的作者个数;其中作者a
i
与a
j
在成果p中的合作价值为将作者a
i
与a
j
在所有合作成果中的价值累加可以得到合作网络中边的权值为:S4:构建成果属性过滤:针对待分配成果p,基于基础属性,排除不匹配的科研人员;所述基础属性至少包括人员姓名、所属单位、发表时间;S5:打分预测:根据科研人员成果识别模型归属概率中位数设定模型推理最低有效值S
min
;对于仍未被认领的成果,基于步骤S4所述的过滤方法,构建归属候选人集合m,使用步骤S2训练的科研人员成果识别模型,计算集合中候选人对该成果模型推理分数S1,并令集合中候选人对该成果合作归属分数S2为0;对于已被部分合作者认领,但合作...
【专利技术属性】
技术研发人员:胡轶宁,吴星灿,李超,孙吉祥,王有东,陈超,唐洁,原欣,李春阳,吴丹丹,朱海建,李亚楠,
申请(专利权)人:江苏省未来网络创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。