学术影响力的预测方法及装置制造方法及图纸

技术编号:21344477 阅读:16 留言:0更新日期:2019-06-13 22:50
本申请提供一种学术影响力的预测方法及装置,该方法包括:获取待预测的目标学者的学术数据;根据目标学者的学术数据,获取目标学者的特征数据;特征数据包括目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据特征数据,采用训练好的预测模型对目标学者的学术影响力进行预测处理。通过结合学者的基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征,采用预测模型对学者的学术影响力进行预测,提高了预测的准确性。

Forecasting methods and devices of academic influence

This application provides a prediction method and device for academic influence, which includes: acquiring the academic data of the target scholar to be predicted; acquiring the characteristic data of the target scholar based on the academic data of the target scholar; and the characteristic data including the identification information of the target scholar, the feature based on the citation network graph, the feature based on the co-authorship network graph, and the feature based on statistics; The trained prediction model is used to predict the academic influence of target scholars. By combining the characteristics of scholars based on Citation Network graph, co-authorship network graph and statistics, the academic influence of scholars is predicted by using prediction model, which improves the accuracy of prediction.

【技术实现步骤摘要】
学术影响力的预测方法及装置
本申请涉及学术分析
,尤其涉及一种学术影响力的预测方法及装置。
技术介绍
互联网的快速发展带来了信息的爆炸,学术数据呈现指数增长趋势,在学术大数据分析领域,学者的准确画像有助于区分同名学者,以及对学者的研究兴趣、关系网络、影响力评估等方面进行更准确的分析。学术影响力用来衡量学者在专业理论及技术方面的影响。每一位学者都希望自己的学术职业能够蒸蒸日上,未来能取得更大的学术影响力。然而,学术道路上的成长取决于很多因素,如果能预测学者未来的学术影响力,那么,将会在人才引进、基金与项目审批和科研人员绩效评估等方面起到重要作用。现有技术中,通常采用回归预测方法进行预测,但是,学者论文被引用数呈现长尾分布,大部分集中在0至10内,若直接进行回归预测,会造成这部分学者的预测误差大。因此,如何有效提高预测准确性成为亟需解决的技术问题。
技术实现思路
本申请提供一种学术影响力的预测方法及装置,以解决现有技术学术影响力预测准确性较低等缺陷。本申请第一个方面提供一种学术影响力的预测方法,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。本申请的另一个方面提供一种学术影响力的预测装置,包括:获取模块,用于获取待预测的目标学者的学术数据;特征提取模块,用于根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;处理模块,用于根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。本申请提供的学术影响力的预测方法及装置,通过结合学者的基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征,采用预测模型对学者的学术影响力进行预测,提高了预测的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的学术影响力的预测方法的流程示意图;图2为本申请另一实施例提供的学术影响力的预测方法的流程示意图;图3为本申请另一实施例提供的另一学术影响力的预测方法的流程示意图;图4为本申请一实施例提供的学术影响力的预测装置的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本实施例提供一种学术影响力的预测方法,用于对学者未来学术影响力进行预测。本实施例的执行主体为学术影响力的预测装置(以下简称装置),该装置可以设置在服务器、台式电脑、笔记本电脑、平板等终端中。如图1所示,为本实施例提供的学术影响力的预测方法的流程示意图,该方法包括:步骤101,获取待预测的目标学者的学术数据。步骤102,根据目标学者的学术数据,获取目标学者的特征数据。特征数据包括目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征。步骤103,根据特征数据,采用训练好的预测模型对目标学者的学术影响力进行预测处理。具体的,若需要预测某一位或多位目标学者的学术影响力,则可以获取待预测的目标学者的学术数据,根据目标学者的学术数据,获取目标学者的特征数据,特征数据包括目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征,根据特征数据,采用训练好的预测模型对目标学者的学术影响力进行预测处理。其中,目标学者的学术数据形式如表1所示,表1中所示出的仅为部分字段,具体字段个数以现有技术中学术论文或文献所能获取到的以及该方法需求为依据来获取。表1字段含义#index编号#*标题#@学者,多名学者以逗号分开#t发表年份#c发表的会议、期刊#%包含多行,每一行代表一篇所引用论文的id在获取到目标学者的学术数据后,则可以根据学术数据获取目标学者的特征数据,其中目标学者标识信息可以为目标学者的姓名,基于引用网络图的特征和基于合著网络图的特征可以包括学者PR(pagerank)值,degree_centrality(度中心性),clustering(群聚系数),average_neighbor_degree(平均邻度或均值邻度),core_number(k核数)等,基于统计的特征可以包括引用、被引用、发表会议等方面的特征。其中,重要的特征主要有合著权重、引用权重、第一论文发表权重和第二论文发表权重。可选地,合著权重、引用权重、第一论文发表权重和第二论文发表权重的计算方法如下:1、合著权重合著权重={∑P(单个人的合著次数|合著总次数)*合著者被引用数}/合著者总人数比如学者A与3个人合著,总次数为12,B与A合著3次,B被引用数为1000次,C与A合著4次,C被引用数为50次,D与A合著5次,D被引用次数为100次,学者A的合著权重计算结果为:(3/12*1000+4/12*50+5/12*100+)/3=308.33。2、引用权重引用权重={∑P(单个人的引用次数|引用总次数)*引用者被引用数}/引用者总人数该计算过程与合著权重一致,在此不再赘述。3、第一论文发表权重P(citationi|scholark)=∑P(citationi|venuej)P(venuej|scholark)其中,比如学者X在期刊A、B、C上发表过文章,如表2所示:表2X发表文章数期刊或会议论文数期刊或会议被引用数期刊A51000100期刊B399999期刊C188888根据公式计算:对A:v1=5/9*100/1000对B:v2=3/9*99/999对C:v3=1/9*88/888学者X的第一论文发表权重结果为三个值相加:v1+v2+v3。4、第二论文发表权重P(citationi|scholark)=∑P(citationi|venuej)P(venuej*venuej|scholark)其中,示例性的,最终获得的目标学者的特征数据结构如表3所示,需要说明的是,表3仅为示例性说明,特征数据还可以包括其他特征,在此不再赘述。表3除上述四个特征外的其他特征可以采用现有技术获得。在此不再赘述。在获取到目标学者的特征数据后,则可以根据特征数据,采用训练好的预测模型对目标学者的学术影响力进行预测处理。需要说明的是,上述目标学者可以是一位学者也可以是多位学者,即可以预测一位学者的被引用结果,也可以同时预测多位学者的被引用结果,在此不做限制。其中,多位表示两位或两位以上。本实施例提供的学术影响力的预测方法,通过结合学者的基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征本文档来自技高网...

【技术保护点】
1.一种学术影响力的预测方法,其特征在于,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。

【技术特征摘要】
1.一种学术影响力的预测方法,其特征在于,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理,包括:根据所述特征数据,采用训练好的LightGBM(LightGradientBoostingMachine,轻量级梯度提升机)预测模型对所述目标学者的学术影响力进行预测处理。3.根据权利要求2所述的方法,其特征在于,所述根据所述特征数据,采用训练好的LightGBM预测模型对所述目标学者的学术影响力进行预测处理,包括:分别采用第一分类器、第二分类器、第一回归器和第二回归器,对所述特征数据进行预测处理,获得对应的第一结果信息、第二结果信息、第三结果信息和第四结果信息;分别对所述第三结果信息和所述第四结果信息进行log2(1+x)的反变换,获得对应的第五结果信息和第六结果信息;根据所述第一结果信息、第二结果信息、第五结果信息和第六结果信息,确定所述目标学者的预测被引用结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一结果信息、第二结果信息、第五结果信息和第六结果信息,确定所述目标学者的预测被引用结果,包括:若所述第一结果信息为0,则将0作为所述目标学者的预测被引用结果;若所述第一结果信息为非0,且所述第二结果信息为小于第一预设阈值,则将所述第五结果信息作为所述目标学者的预测被引用结果;若所述第一结果信息为非0,且所述第二结果信息为大于或等于所述第一预设阈值,则将所述第六结果信息作为所述目标学者的预测被引用结果。5.根据权利要求1-4任一项所述的方法,其特征在于,在获取待预测的学术数据之前,所述方法还包括:获取预设的用于训练的训练学术数据;根据所述训练学术数据,获取训练学者的训练特征数据及对应的被引用结果,所述训练特征数据包括所述训练学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述训练特征数据、所述被引用结果及预设规则,对所述训练特征数据进行分类处理,获得第一分类器、第二分类器、第一回归器和第二回归器对应的目标训练数据;采用所述目标训练数据对所述第一分类器、第二分类器、第一回归器和第二回归器进行训练,获得所述训练好的预测模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述训练特征数据、所述被引用结果及预设规则,对所述训练特征数据进行分类处理,获得第一分类器、第二分类器、第一回归器和第二回归器对应的目标训练数据,包括:将所述训练特征数据中所述被引用结果大于0的训练学者的被引用结果变换为1,将所述被引用结果等于0的训练学者的被引用结果保持不变,获得第一分类器的目标训练数据;将所述训练特征数据中所述被引用结果大于或等于第一预设阈值的训练学者的被引用结果变换为1,将所述被引用结果小于第一预设阈值的训练学者的被引用结果变换为0,获得第二分类器的目标训练数据;将所述训练特征数据中所述被引用结果大于或等于第一预设阈值的训练学者的训练特征数据及对应的被引用结果去除,并将剩余的训练学者的被引用结果进行log2(1+x)变换处理,获得第一回归器的目标训练数据;将所述训练特征数据中所述被引用结果小于第...

【专利技术属性】
技术研发人员:佟津乐罗学文谢海华陈雪飞黄肖俊高良才汤帜
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1