This application provides a prediction method and device for academic influence, which includes: acquiring the academic data of the target scholar to be predicted; acquiring the characteristic data of the target scholar based on the academic data of the target scholar; and the characteristic data including the identification information of the target scholar, the feature based on the citation network graph, the feature based on the co-authorship network graph, and the feature based on statistics; The trained prediction model is used to predict the academic influence of target scholars. By combining the characteristics of scholars based on Citation Network graph, co-authorship network graph and statistics, the academic influence of scholars is predicted by using prediction model, which improves the accuracy of prediction.
【技术实现步骤摘要】
学术影响力的预测方法及装置
本申请涉及学术分析
,尤其涉及一种学术影响力的预测方法及装置。
技术介绍
互联网的快速发展带来了信息的爆炸,学术数据呈现指数增长趋势,在学术大数据分析领域,学者的准确画像有助于区分同名学者,以及对学者的研究兴趣、关系网络、影响力评估等方面进行更准确的分析。学术影响力用来衡量学者在专业理论及技术方面的影响。每一位学者都希望自己的学术职业能够蒸蒸日上,未来能取得更大的学术影响力。然而,学术道路上的成长取决于很多因素,如果能预测学者未来的学术影响力,那么,将会在人才引进、基金与项目审批和科研人员绩效评估等方面起到重要作用。现有技术中,通常采用回归预测方法进行预测,但是,学者论文被引用数呈现长尾分布,大部分集中在0至10内,若直接进行回归预测,会造成这部分学者的预测误差大。因此,如何有效提高预测准确性成为亟需解决的技术问题。
技术实现思路
本申请提供一种学术影响力的预测方法及装置,以解决现有技术学术影响力预测准确性较低等缺陷。本申请第一个方面提供一种学术影响力的预测方法,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。本申请的另一个方面提供一种学术影响力的预测装置,包括:获取模块,用于获取待预测的目标学者的学术数据;特征提取模块,用于根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标 ...
【技术保护点】
1.一种学术影响力的预测方法,其特征在于,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。
【技术特征摘要】
1.一种学术影响力的预测方法,其特征在于,包括:获取待预测的目标学者的学术数据;根据所述目标学者的学术数据,获取所述目标学者的特征数据,所述特征数据包括所述目标学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征数据,采用训练好的预测模型对所述目标学者的学术影响力进行预测处理,包括:根据所述特征数据,采用训练好的LightGBM(LightGradientBoostingMachine,轻量级梯度提升机)预测模型对所述目标学者的学术影响力进行预测处理。3.根据权利要求2所述的方法,其特征在于,所述根据所述特征数据,采用训练好的LightGBM预测模型对所述目标学者的学术影响力进行预测处理,包括:分别采用第一分类器、第二分类器、第一回归器和第二回归器,对所述特征数据进行预测处理,获得对应的第一结果信息、第二结果信息、第三结果信息和第四结果信息;分别对所述第三结果信息和所述第四结果信息进行log2(1+x)的反变换,获得对应的第五结果信息和第六结果信息;根据所述第一结果信息、第二结果信息、第五结果信息和第六结果信息,确定所述目标学者的预测被引用结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一结果信息、第二结果信息、第五结果信息和第六结果信息,确定所述目标学者的预测被引用结果,包括:若所述第一结果信息为0,则将0作为所述目标学者的预测被引用结果;若所述第一结果信息为非0,且所述第二结果信息为小于第一预设阈值,则将所述第五结果信息作为所述目标学者的预测被引用结果;若所述第一结果信息为非0,且所述第二结果信息为大于或等于所述第一预设阈值,则将所述第六结果信息作为所述目标学者的预测被引用结果。5.根据权利要求1-4任一项所述的方法,其特征在于,在获取待预测的学术数据之前,所述方法还包括:获取预设的用于训练的训练学术数据;根据所述训练学术数据,获取训练学者的训练特征数据及对应的被引用结果,所述训练特征数据包括所述训练学者标识信息、基于引用网络图的特征、基于合著网络图的特征、以及基于统计的特征;根据所述训练特征数据、所述被引用结果及预设规则,对所述训练特征数据进行分类处理,获得第一分类器、第二分类器、第一回归器和第二回归器对应的目标训练数据;采用所述目标训练数据对所述第一分类器、第二分类器、第一回归器和第二回归器进行训练,获得所述训练好的预测模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述训练特征数据、所述被引用结果及预设规则,对所述训练特征数据进行分类处理,获得第一分类器、第二分类器、第一回归器和第二回归器对应的目标训练数据,包括:将所述训练特征数据中所述被引用结果大于0的训练学者的被引用结果变换为1,将所述被引用结果等于0的训练学者的被引用结果保持不变,获得第一分类器的目标训练数据;将所述训练特征数据中所述被引用结果大于或等于第一预设阈值的训练学者的被引用结果变换为1,将所述被引用结果小于第一预设阈值的训练学者的被引用结果变换为0,获得第二分类器的目标训练数据;将所述训练特征数据中所述被引用结果大于或等于第一预设阈值的训练学者的训练特征数据及对应的被引用结果去除,并将剩余的训练学者的被引用结果进行log2(1+x)变换处理,获得第一回归器的目标训练数据;将所述训练特征数据中所述被引用结果小于第...
【专利技术属性】
技术研发人员:佟津乐,罗学文,谢海华,陈雪飞,黄肖俊,高良才,汤帜,
申请(专利权)人:北大方正集团有限公司,北大方正信息产业集团有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。