一种基于时间序列的科技文献被引用数目预测方法技术

技术编号:11230913 阅读:121 留言:0更新日期:2015-03-29 18:25
本发明专利技术的一种基于时间序列的科技文献被引用数目预测方法,先统计科技文献的被引用数目,然后计算每个月份里文献的平均被引用数目;结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到被引用时间序列;根据时间序列进行聚类分析,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用预测最优模型得到待测文献未来一个月的被引用数目。本发明专利技术不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。

【技术实现步骤摘要】
一种基于时间序列的科技文献被引用数目预测方法
本专利技术属于计算机
,涉及一种基于时间序列的科技文献被引用数目预测方法。
技术介绍
被引用数目是指在一段指定的时间段内科技文献被其他文献引用的次数,是评估科技文献影响力和质量的重要方法。但被引用数目的统计易受到当前时间点的限制,很难获得未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。亟待提供一种基于时间序列的科技文献被引用数目预测方法,更快的识别有潜力的文献,促进科学研究和新知识的传播。
技术实现思路
本专利技术的目的在于提供一种基于时间序列的科技文献被引用数目预测方法,通过获取并分析科技文献的被引用时间序列,预测未来一段时间内的被引用数目,帮助评估文献的科技潜力,提供快速高效的阅读建议。实现本专利技术目的技术方案:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列相似度对文献集合聚类,对每类中的时间序列建立多个回归模型,利用误差分析选出性能最优模型;步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目。步骤1中,利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及出版年月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用数目。步骤4中,首先根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长度。对长度超过N的时间序列,要对超长部分进行截断。对长度低于N的时间序列,舍弃。N值由用户设定。步骤4中,进行聚类分析时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树。被引用时间序列Xi=(Xi1,Xi2,…Xi8):表示文献i的被引用时间序列向量值;被引用时间序列Xj=(Xj1,Xj2,…Xj8):表示文献j的被引用时间序列向量值;距离d(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离;距离计算公式如下:通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。类间距离Dpq:表示类别Gp,Gq之间的距离。其中Gp的元素个数为np,Gq的元素个数为nq.元素间距离dij:表示时间序列i,j之间的距离。类间距离计算公式如下:通过聚类分析,将集合中的各个文献划分成不同的类。步骤4中,对类中时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集。在训练集上建立模型,在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型。步骤5中,对于两个文献p与文献pj,分别用(Xi1,Xi2,…Xi8)和(Xj1,Xj2,…Xj8)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,pj)的计算公式如下:通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。计算待测文献与各类文献时间序列的相似度的公式如下:Similarity(p,Ci)表示待测文献p与Ci类文献时间序列的相似度值;Similarity(p,pj)表示待测文献p与文献pj的时间序列的相似度值,由余弦夹角函数求得。文献pj∈Ci类,j=1,2,…,n(n表示Ci类中文献的总个数)。本专利技术具有的有益效果:本专利技术利用数据库统计科技文献出版时间及出版后每个月份的被引用数目;在数据预处理阶段,计算每个月份里所有文献被引用的数目之和以及被引用的文献总数,相除获得该月份的平均被引用数目;对于每个文献,自出版当月起,结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到该文献的被引用时间序列;根据被引用时间序列的相关度对文献集合进行聚类分析,在每个类中,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用该类的预测最优模型进行计算,得到待测文献未来一个月的被引用数目。本专利技术不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。本专利技术在数据预处理阶段即步骤2中计算得出各个月份的平均被引用数目,在构建每个文献的被引用时间序列时,使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值,能够有效消减因季节性学术活跃度差异而对预测造成的误差,提高预测准确率。在步骤4中通过被引用时间序列聚类分析和回归模型的建立,能够充分挖掘出文献的不同被引用模式,在误差分析获得最优模型后,将训练集和验证集再度合并并重新运行最优模型,能够在预测中充分应用到最新数据,有效提高预测模型的精确度。具体实施方式:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及出版年月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用数目。遍历集合中的每个文献,读取出版时间(time)及索引列表中的引文标号(refid1,refid2,…,refidn)。对每个引文标号refidi,统计自出版后每个月内引用refidi的文献个数即为该月份的被引用数目。步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount;平均被引用数目Avecitecount(month):表示在month月内的平均被引用数目值。月被引用数目Citecount(Pi,month)(Pi∈N)(N表示在month月被引用的文献集合):表示文献Pi在month月的被引用数目值。月平均被引用数目计算公式如下所示:通过月平均被引用数目计算公式可得到相应月份的平均被引用数目,在构建每个文献的时间序列时,使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值,能够有效消减因季节性学术活跃度差异而对预测造成的误差。步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列相似度对文献集合聚类,对每类中的时间序列建立多个回归模型,利用误差分析选出性能最优模型;首先,根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长度。对长度超过N的时间序列,要对超长部分进行截断。对长度低于N的时间序列,舍弃。N值由用户设定。本实验中N=8。进行聚类分析时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树。被引用时间序列Xi=(Xi1,Xi2,…Xi8本文档来自技高网...

【技术保护点】
一种基于时间序列的科技文献被引用数目预测方法,其特征在于:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长;对长度超过N的时间序列,要对超长部分进行截断;对长度低于N的时间序列,舍弃;N值由用户设定;进行聚类时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树;被引用时间序列Xi=(Xi1,Xi2,…Xi8):表示文献i的被引用时间序列向量值;被引用时间序列Xj=(Xj1,Xj2,…Xj8):表示文献j的被引用时间序列向量值;距离d(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离;距离计算公式如下:d(Xi,Xj)=[Σk=18(Xik-Xjk)2]1/2]]>通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。类间距离Dpq:表示类别Gp,Gq之间的距离。其中Gp的元素个数为np,Gq的元素个数为nq.元素间距离dij:表示时间序列i,j之间的距离。类间距离计算公式如下:Dpq=1npnqΣi∈GpΣj∈Gqdij]]>通过聚类分析,将集合中的各个文献划分成不同的类,对类中时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集;在训练集上建立模型,在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型;步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目;对于两个文献p与文献pj,分别用(Xi1,Xi2,…Xi8)和(Xj1,Xj2,…Xj8)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,pj)的计算公式如下:Similarity(p,pj)=cosθ=ΣkXik×Xjk(ΣkXik2)(ΣkXjk2)]]>通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。计算待测文献与各类文献时间序列的相似度的公式如下:Similarity(p,Ci)=1n×[Σj=1nSimilarity(p,pj)]]]>Similarity(p,Ci)表示待测文献p与Ci类文献时间序列的相似度值;Similarity(p,pj)表示待测文献p与文献pj的时间序列的相似度值,文献pj∈Ci类,j=1,2,…,n(n表示Ci类中文献的总个数)。...

【技术特征摘要】
1.一种基于时间序列的科技文献被引用数目预测方法,其特征在于:步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目;步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;步骤4:根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长;对长度超过N的时间序列,要对超长部分进行截断;对长度低于N的时间序列,舍弃;N值由用户设定;进行聚类时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树;被引用时间序列Xi=(Xi1,Xi2,…Xi8):表示文献i的被引用时间序列向量值;被引用时间序列Xj=(Xj1,Xj2,…Xj8):表示文献j的被引用时间序列向量值;距离d(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离;距离计算公式如下:通过计算被引用时间序列之间的距离,得到一个距离矩阵;根据谱聚类方法,使用未加权平均距离法生成聚类树;类间距离Dpq:表示类别Gp,Gq之间的距离;其中GP的元素个数为np,Gq的元素个数为nq;元素间距离dij:表示时间序列i,j之间的距离;类间距离计算公式如下:通过聚类分析,将集合中的各个文献划分成不同的类,...

【专利技术属性】
技术研发人员:姚念民李梦阳谭国真战福瑞
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1