一种数据出版物学术影响力评价预测方法技术

技术编号:23051267 阅读:19 留言:0更新日期:2020-01-07 14:57
本发明专利技术提出一种数据出版物学术影响力评价预测方法,包括如下步骤:提取数据论文个体的不同时间段的引用次数和引用格式文件下载次数,计算得到不同时间段的引用转化率数据;选择回归模型,根据引用转化率数据,利用曲线拟合方法进行拟合;根据拟合的结果,构建数据论文个体的影响力评价预测模型,利用该影响力评价预测模型,计算数据论文个体的某时间段的引用次数,实现影响力的评价或预测。本方法能够有效评价并预测各个数据论文的引用影响力情况。

An evaluation and prediction method for academic influence of data publications

【技术实现步骤摘要】
一种数据出版物学术影响力评价预测方法
本专利技术涉及学术影响力评价、影响力预测、生长曲线拟合等
,提出了一种数据出版物学术影响力评价预测方法。
技术介绍
科学数据是进行科研活动的重要成果产出,对科技创新、经济发展和社会发展具有重要意义。随着信息技术的日新月异,科学数据正以前所未有的速度增长。国际数据公司(IDC)最新报告“DataAge2025”指出全球信息化数据量2015年为12ZB,到2020年将达到47ZB,全球信息化数据量将以每两年翻一番的速度快速增长。IDC统计数据显示,全球仅有3%的潜在有价值的数据被开发利用,而经过深入分析和挖掘的数据则更少。科学数据只有开放共享、广泛传播才能充分发挥其价值。数据作为科学研究的主要成果形式之一,客观准确地对数据的影响力进行评价,有利于提升数据资源作为一项学术成果的社会认可度,有助于提高数据工作者的学术地位和影响,最终激发数据工作者出版数据的内在动力,推动数据的开放共享。而传统开放共享模式下由于缺乏有效的评价、激励、引用机制等原因,影响了科学数据的开放共享程度和传播重用效率。数据出版模式的出现,能够很好地解决传统数据开放共享模式中存在的诸多问题。数据出版模式提倡以数据论文(DataPaper)的方式出版数据。数据论文作为一种开放访问并经过同行评议的新型出版物,对具有科学价值的数据集进行描述,结合传统期刊论文内容和结构化描述模式,使数据更具发现性、引用性、解释性和重用性。随着数据出版模式的推广,逐步出现了一些以数据论文方式进行数据集出版的数据期刊,如EarthSystemScienceData、ScientificData等。为了有效量化和评价数据的影响力以及数据工作者的贡献度,以及进一步推动数据的开放共享、传播与重用,ANDS、DCC、OECD、FORCE11、RDA、DataCite、Dryad、Dataverse、Gesis等越来越多的国际组织或研究机构出台了数据引用的指导原则和规范。我国国家标准化管理委员也于2018年正式发布了《信息技术科学数据引用》国家标准。通过全球多个组织、机构、研究学者的不断努力,数据引用机制不断被完善,数据出版模式逐渐被认可,数据引用意识和文化也逐步得到培养。而这些努力也为数据影响力评价研究工作的开展奠定了良好的基础。科学数据影响力研究已经得到国外学术界和国内一些学者的关注,其研究内容涵盖影响力评价理论、指标体系、方法、应用等多个方面。但整体来看,目前科学数据影响力研究仍处于初级阶段。国际上多个研究机构或组织长期致力于开展数据影响力的传统文献计量、替代计量和新指标的研究工作。其中世界数据系统数据出版文献计量学工作组通过数据计量学的理论研究和实践推动数据计量学的应用和发展。美国的国家信息标准委员会致力于数据影响力替代评估指标相关标准研究和实践工作。CASRAI科研管理信息标准推进委员会致力于数据级计量评价标准规范的研究以及促进相关标准的统一等工作。国内顾立平等学者于2013年提出了利用网络用户行为和科学社群影响力的Altmetrics计量方法对开放数据的影响力进行评价。2014年,PLOS、CDL和DataONE合作启动试点项目开展数据级计量指标研究,并于2015年提出了一套多维计量指标集DataLevelMetrics,从浏览、下载、评论、推荐、引用等多个维度测量科研数据的影响力和使用情况。随着数据出版概念的普及以及DataCitationIndex(DCI)的发布,逐渐出现了一些利用引文分析等文献计量方法对科学数据进行影响力评价的研究。丁楠、雷淑义等学者基于DCI利用引用次数、h指数等文献计量指标对数据以及数据出版平台、机构、学科的影响力进行评价。Lin等学者通过调查发现,引用指标仍然是最受当前科学界认可的最有效的数据影响力评价指标。2016年Peters等学者基于DCI探讨了数据引用与Altmetric、ImpactStory、PlumX三种替代计量工具对数据影响力评分之间的关系,通过研究未发现数据的引文数量与Altmetrics评分之间存在显著相关性。多位学者指出,利用文献引文计量方法进行影响力评价存在滞后性,无法及时反映成果的实时影响力情况。而且引文计量统计工作难度大、依赖第三方文献计量服务,需要实时跟踪和更新。常用的社交网络转发量等替代计量指标存在数据统计难度大、与引文量相关性不强等问题。因此,如何从数据期刊或数据存储库自身替代计量指标出发,探索一种数据期刊或数据存储库可自主实现、高效、等价可替代的数据引用影响力评价及预测模型则显得尤为关键。多位学者研究指出,常用的浏览次数、下载次数、转发量、评论数等替代计量指标与引用次数之间未见显著相关性。随着数据引用机制的逐步完善,越来越多的在线出版平台提供了标准化的引用格式说明,以及bib、ris等引用格式文件下载功能。而引用格式文件下载的目的性非常单一,基本可以等同理解为将要进行论文发表的行为。可以说,引用格式文件下载与引用次数息息相关,是转化为引用次数的重要输入。
技术实现思路
为了解决现有技术问题,本专利技术提出一种数据出版物学术影响力评价预测方法,通过引用转化率数据来拟合曲线,根据拟合的方程预估目标时间段引用次数,用该引用次数表征引用影响力,本方法能够有效评价并预测各个数据论文的引用影响力情况。本专利技术提出的一种数据出版物学术影响力评价预测方法,如图1所示,其步骤如下:(1)提取数据论文个体的引用转化率数据;(2)选择回归模型,利用曲线拟合方法进行回归分析;(3)构建数据论文个体专用影响力评价预测模型;(4)根据引用转化率所处阶段,利用模型进行引用影响力评价或预测。通过分析,引用转化率随时间成S生长曲线模型,因此选择S模型进行拟合。当引用转化率处于增长期阶段,可以利用模型进行评估或者预测;当引用转化率进入稳定期后,可直接利用稳定阶段的引用转化率乘以引用格式文件下载次数进行评估或预测。本专利技术还提出一种数据出版物学术影响力评价预测系统,其包括存储器和处理器,该存储器存储计算机程序,该程序被配置为由该处理器执行,该程序包括用于执行上述方法中各步骤的指令。本专利技术还提出一种存储计算机程序的计算机可读存储介质,该计算机程序包括指令,该指令当由系统的处理器执行时使得该系统执行上述方法中的各个步骤。本专利技术取得的有益效果为:科学数据只有开放共享、广泛传播才能充分发挥其价值。准确评价数据的学术影响力,是促进数据开放共享的关键一环。数据出版模式的出现以及数据引用机制的不断完善为数据的学术影响力评价开辟了蹊径。传统文献计量存在时间滞后性等问题,常用替代计量指标存在评价偏差大等问题为了能够有效评价并预测各个数据论文的引用影响力情况,本专利技术一步提出了“引用转化率”的概念。通过对样本数据绘制引用转化率随时间变化曲线,可以发现引用转化率变化曲线符合S生长曲线模型的特征:变化曲线存在明显的延迟期(施引论文撰写到最终出版的时间)和快速增长期(首次出现施引文献到进入稳定期之本文档来自技高网
...

【技术保护点】
1.一种数据出版物学术影响力评价预测方法,其特征在于,包括如下步骤:/n提取数据论文个体的不同时间段的引用次数和引用格式文件下载次数,计算得到不同时间段的引用转化率数据;/n选择回归模型,根据引用转化率数据,利用曲线拟合方法进行拟合;/n根据拟合的结果,构建数据论文个体的影响力评价预测模型,/n利用该影响力评价预测模型,计算数据论文个体的某时间段的引用次数,实现影响力的评价或预测。/n

【技术特征摘要】
1.一种数据出版物学术影响力评价预测方法,其特征在于,包括如下步骤:
提取数据论文个体的不同时间段的引用次数和引用格式文件下载次数,计算得到不同时间段的引用转化率数据;
选择回归模型,根据引用转化率数据,利用曲线拟合方法进行拟合;
根据拟合的结果,构建数据论文个体的影响力评价预测模型,
利用该影响力评价预测模型,计算数据论文个体的某时间段的引用次数,实现影响力的评价或预测。


2.如权利要求1所述的方法,其特征在于,回归模型选用S生长曲线模型,该模型的方程为:



其中,Y表示因变量引用转化率,β0为常数,β1为回归系数,X为时间。


3.如权利要求2所述的方法,其特征在于,影响力评价预测模型方程为:



其中,Ci...

【专利技术属性】
技术研发人员:李成赞杜一
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1