科研热点预测方法及系统技术方案

技术编号:26067510 阅读:39 留言:0更新日期:2020-10-28 16:40
本发明专利技术属于科研热点预测领域,提供了一种科研热点预测方法及系统。其中,科研热点预测方法包括提取当前周期内科技文本中所有热点关键词;根据热点关键词的TF‑IDF值,生成当前周期内所有热点关键词的时序数据;基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。

【技术实现步骤摘要】
科研热点预测方法及系统
本专利技术属于科研热点预测领域,尤其涉及一种科研热点预测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。科研热点预测是科技情报领域较新的应用需求。科研工作者、科研项目管理者在选题、立项必须有一定的前瞻性,即立足于当前科学技术现状与社会发展情况,对未来可能产生的新理论或者产生应用价值的新技术做出判断。目前科研热点预测的方法严重依赖于本领域高级专业人员通过文献查阅与市场调研的方法确定热点出现的方向。另外,当一个新的理论与技术诞生后,其关联应用领域还需要大量的工作去发掘。科研领域中,科研热点词汇数量巨大,每种热点呈现的走势不尽相同,例如:以某热点科研词汇的点击量为例,其随着时间变化的趋势完全不同,如图1(a)和图1(b)所示。专利技术人发现,基于标准的机器学习模型拟合热点走势准确率不高。
技术实现思路
为了解决上述问题,本专利技术的第一个方面提供一种科研热点预测方法,其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。为了实现上述目的,本专利技术采用如下技术方案:一种科研热点预测方法,包括:提取当前周期内科技文本中所有热点关键词;根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。为了解决上述问题,本专利技术的第二个方面提供一种科研热点预测系统,其使得用户可以及时地获得未来一段时间科研热点主题预测推荐。为了实现上述目的,本专利技术采用如下技术方案:一种科研热点预测系统,包括:热点关键词提取模块,其用于提取当前周期内科技文本中所有热点关键词;时序数据生成模块,其用于根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;预测加速模块,其用于基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;热点预测模块,其用于将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。本专利技术的第三个方面提供一种计算机可读存储介质。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的科研热点预测方法中的步骤。本专利技术的第四个方面提供一种计算机设备。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的科研热点预测方法中的步骤。与现有技术相比,本专利技术的有益效果是:(1)采用标准热点时序生成技术手段,获取各类热点关键词趋势特征,从而获得提升科研热点预测准确率的效果;(2)采用基于时序特征前置比较技术手段,通过简化比较的特征,提高了在线预测的时间效率,获得该方法适应大规模在线数据预测的效果。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1是科研词汇的点击量时序趋势图示例一;图2是科研词汇的点击量时序趋势图示例二;图3是本专利技术实施例的科研热点预测方法流程图;图4是本专利技术实施例的科研热点预测系统结构示意图。具体实施方式下面结合附图与实施例对本专利技术作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一结合附图3,本实施例提供的一种科研热点预测方法,包括:S101:提取当前周期内科技文本中所有热点关键词。在具体实施中,提取当前周期内科技文本中所有热点关键词的过程为:提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。在具体实施中,利用爬虫技术在科技新闻网站、文献数据库爬取科技信息文章。爬取的文章文本化,设一段时间内抓取的科技信息文章集合为Tt,其中t表示周期序号。基于权重TF-IDF算法获得Tt的关键词向量,记为Q为科技词库中词的数量。设ai为词库中词汇分量第i个关键词,bi为对应关键词ai所得权重TF-IDF值。bi计算具体步骤为:1)设tj是Tt的一个本文,基于标准TF-IDF算法获得tj第i个词汇的TF-IDF值,设为2)设tj的下载量或阅读量为nj,引用量为mj。那么其中与分别表示该周期内所有文章nj与mj的平均值。S102:根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据。其具体实施过程如下:1)设置bi的热点阈值当时,则标记bi对应的ai为热点关键词。2)生成ai的权重TF-IDF时间序列Bi={bi,t,t=1,2,...,n},其中bi,t表示第t个周期bi的值。bi,t需从历史数据中获取。S103:基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词。每个关键词都要与每个标准热点时序进行距离计算,因此其时间复杂度为w·|Z|,其中w为过滤掉过低bi,t的关键词ai的数量,|Z|为Z标准热点时序的数量。此方法比较耗时,本实施例基于时序特征前置比较的方式,加快预测时间。具体方法如下:1)提取每个的时序特征。这些时序特征包括均值、方差、最大值、最小值等,的时序特征用Vβ表示。2)初步检测ai检测序列Bi与的距离。提取Bi的时序特征Vi,基于欧氏距离计算Vi与Vβ的距离,若此距离小于阈值则再进行热点预测;若大于则放弃Bi与的距离计算。S104:将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。作为一种具体实施方式,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。具体步骤如下:...

【技术保护点】
1.一种科研热点预测方法,其特征在于,包括:/n提取当前周期内科技文本中所有热点关键词;/n根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;/n基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;/n将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;/n其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。/n

【技术特征摘要】
1.一种科研热点预测方法,其特征在于,包括:
提取当前周期内科技文本中所有热点关键词;
根据热点关键词的TF-IDF值,生成当前周期内所有热点关键词的时序数据;
基于时序特征前置比较的方式,初步过滤当前周期内的热点关键词;
将初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据进行距离计算,筛选距离值不大于距离半径值对应的热点关键词作为科研热点;
其中,距离半径值为首次热点出现的时序数据样本与其对应的标准热点时序数据的最远距离。


2.如权利要求1所述的科研热点预测方法,其特征在于,提取当前周期内科技文本中所有热点关键词的过程为:
提取当前周期内科技文本的关键词;根据关键词的TF-IDF值与热点关键词TF-IDF阈值比较,得到前周期内科技文本中所有热点关键词。


3.如权利要求1所述的科研热点预测方法,其特征在于,时序特征包括均值、方差、最大值和最小值。


4.如权利要求1所述的科研热点预测方法,其特征在于,在初步过滤当前周期内的热点关键词的过程中,通过欧式距离比较来过滤小于预设欧式距离的热点关键词。


5.如权利要求1所述的科研热点预测方法,其特征在于,基于DTW算法计算初步过滤后的热点关键词对应的时序数据分别与标准热点时序数据之间的距离。


6.如权利要求1所述的科研热点预测方法,其特征在于,标准热点时序数据的生成过程为:
基于热点TF-IDF阈值比较的方式,标记历史周期时...

【专利技术属性】
技术研发人员:马艳邹立达韩英昆齐达立马雷
申请(专利权)人:山东电力研究院国网山东省电力公司电力科学研究院国家电网有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1