System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种科技情报推荐方法及系统技术方案_技高网

一种科技情报推荐方法及系统技术方案

技术编号:40198944 阅读:5 留言:0更新日期:2024-01-27 00:03
本申请的实施例提供了一种科技情报推荐方法及系统。该科技情报推荐方法包括:收集比赛信息、财务信息和专利信息,对文本数据进行清洗、去重、词频统计和词向量化;使用时间列作为自变量,技术关键词频数作为因变量,通过趋势项、季节项、假期项和误差项来预测每个技术关键词的频数;加入变化点和饱和度,如果模型在R2和MSE差异百分比大于等于阈值,则采用新设置;使用更新后的数据和参数重新训练模型,进行预测和评估;预测技术关键词在未来1‑10年内的变化趋势;基于增长率、专利储备和财力指标对技术热点进行排序和分类,为企业提供最适合的技术组合和路径。既可以保证科技情报推荐的准确性和时效性,又提高了技术关键词的预测能力和解释性。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,涉及一种科技情报推荐方法及系统


技术介绍

1、当前的科技情报推荐方法往往依赖于传统的统计分析和预测模型。这些方法在处理复杂的技术趋势和重要技术事件时存在一定的局限性。限制了其预测和推荐的准确性和时效性。

2、本申请通过结合先进的时间序列预测模型、变化点检测工具和大数据分析技术,更好地预测技术趋势、识别重要技术事件,并为企业和组织提供更准确、更及时的科技情报推荐。


技术实现思路

1、本申请的实施例提供了一种科技情报推荐方法及系统统,进而至少在一定程度上可以提供更准确、更及时的科技情报推荐。

2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

3、根据本申请实施例的一个方面,提供了一种科技情报推荐方法,包括:

4、s110:收集比赛信息、财务信息和专利信息,对文本数据进行清洗、去重、词频统计和词向量化,得到每个文本中包含的人工智能领域的技术关键词;

5、在本申请的一些实施例中,基于前述方案,所述收集比赛信息、财务信息和专利信息,包括:

6、收集历年kaggle、天池、datafountain平台上的比赛信息,如比赛列表、排行榜、赛题介绍、数据说明、评估标准以及比赛日期,这些信息可以反映出技术关键词的流行度和难度;

7、收集statista、ibisworld、forbes平台上的财务年度或季度报告,包含销售额、利润率、市场份额,这些信息可以反映出技术关键词相关的产品或服务的市场表现和前景;

8、收集中国国家知识产权局、wipo、epo、uspto平台上的专利信息,包括专利名称、专利摘要、申请日期、授权日期、申请国家或地区、专利技术人、专利权人,这些信息可以反映出技术关键词的创新水平和保护程度;

9、在本申请的一些实施例中,基于前述方案,所述对文本数据进行清洗、去重、词频统计和词向量化,包括:

10、清洗:去除无关的字符和空格,统一大小写和标点符号,分词和分句,使数据更规范和清晰;

11、去重:使用python、sql,检测和去除重复的数据,避免数据的冗余和不一致;

12、词频统计:计算每个人工智能领域的技术关键词在不同文本中的出现次数和权重,使用tf-idf进行归一化和标准化;

13、比赛信息:比赛列表、排行榜、赛题介绍、数据说明、评估标准;财务年度或季度报告;专利信息:专利名称、专利摘要

14、词向量化:使用排行榜和评估标准中的技术关键词,将每个技术关键词转换为数值向量,使用word2vec或其他方法进行编码和降维,使数据更易于计算和存储;

15、人工智能领域的技术关键词包括:机器学习、人工智能、自然语言处理、计算机视觉、深度学习、大数据。

16、s120:针对每个人工智能领域的技术关键词,使用prophet模型,使用时间作为自变量,技术关键词频数作为因变量,通过趋势项、季节项、假期项和误差项来预测每个技术关键词的频数;

17、在本申请的一些实施例中,基于前述方案,所述使用时间作为自变量,技术关键词频数作为因变量,包括:

18、时间列:将时间作为自变量,以年为单位,表示每个技术关键词的观察期间;

19、目标变量:将技术关键词频数作为因变量,表示每个技术关键词在每年的出现次数或权重;

20、在本申请的一些实施例中,基于前述方案,所述通过趋势项、季节项、假期项和误差项来预测每个技术关键词的频数,包括:

21、趋势项:设置整体趋势项,表示每个技术关键词的长期发展方向;设置为对数增长曲线,即t(t)=a*log(t)+b,其中a和b是模型参数,t是时间变量;引入变化点t,表示每个技术关键词在某个时间点发生了突变,即t(t)=a1*log(t)+b1,当t<t;t(t)=a2*log(t)+b2,当t>=t;设置上限和下限,表示每个技术关键词的最大和最小值,即t(t)=min(上限,max(下限,t(t)));使用prophet工具箱来自动检测变化点t和设置上限下限;

22、季节项:设置季节项,表示每个技术关键词的周期性波动;使用傅里叶级数叠加来模拟p1、p2的周期效应,即s(t)=∑(αk*sin(2π*t/pk))+∑(βk*cos(2π*t/pk)),其中αk和βk是模型参数,pk是周期参数,t是时间变量;设置p1为1年周期,p2为季度周期,来模拟年度和季度的周期变化;t是时间变量,通过调节周期参数p和振幅α,使得季节项自适应地反映周期规律;

23、假期项:设置假期项,表示每个技术关键词受到重要技术事件的影响;使用指示函数来模拟每个技术事件对每个技术关键词的效应大小和持续时间,即h(t)=∑(γi*i(t-ci)),其中γi是模型参数,ci是第i个重要技术事件的时间点,i(t-ci)是指示函数,在ci周围一定窗口内取1,否则取0;设置窗口大小为期前后0.5-1个月;通过自定义添加重要技术事件的时间点ci、窗口大小和效应值γi来反映出不同技术事件对不同技术关键词的影响。

24、误差项:设置误差项,表示每个技术关键词的随机波动。假设误差项服从正态分布,即ε(t)~n(μ,σ2),其中μ是均值,σ2是方差;设置l1或l2正则化项来控制模型复杂度,避免过拟合,在训练过程中通过调节μ、σ、λ超参数来使误差项合理化,并达到模型的最佳复杂度;

25、使用历史数据来训练模型,并获得趋势项、季节项、假期项和误差项中的各个参数;在新的时间点t,将所有项相加,即y(t)=t(t)+s(t)+h(t)+ε(t),来预测每个技术关键词的频数y(t)。

26、s130:在prophet模型的趋势项中加入变化点和饱和度,如果加入后的模型在决定系数r2和均方误差mse差异百分比大于等于阈值,则采用新设置;

27、在本申请的一些实施例中,基于前述方案,所述加入变化点和饱和度,如果模型在r2和mse差异百分比大于等于阈值,则采用新设置,包括:

28、为了进行模型评估,使用sklearn、statsmodels计算r2、mse指标,并用不同的颜色、形状、大小、标签来表示不同模型的效果;

29、差异百分比=(新模型的指标值-原模型的指标值)/原模型的指标值*100%,如果加入变化点和饱和度后的模型在以上指标上差异百分比大于等于阈值,阈值设定为10-20%,则采用新设置。

30、在本申请的一些实施例中,基于前述方案,所述新设置,包括:

31、根据变化率、变化幅度、饱和度确定需要设置变化点和饱和度的技术关键词,以及它们的时间点和上限或下限;

32、用prophet工具箱来自动检测变化点的时间点,并设置饱和度的上限和下限;

33、在趋势项中,对于时间点小于变化点的情况,用t(t)=a1*log(t)+b1来拟本文档来自技高网...

【技术保护点】

1.一种科技情报推荐方法,其特征在于,包括:

2.根据权利要求l所述的方法,其特征在于,S110,包括:

3.根据权利要求2所述的方法,其特征在于,S120,包括:

4.根据权利要求1所述的方法,其特征在于,S130,包括:

5.根据权利要求4所述的方法,其特征在于,新设置,包括:

6.根据权利要求1所述的方法,其特征在于,S140,包括:

7.根据权利要求1所述的方法,其特征在于,S150,包括:

8.根据权利要求1所述的方法,其特征在于,S160,包括:

9.一种科技情报推荐系统,其特征在于,包括:

【技术特征摘要】

1.一种科技情报推荐方法,其特征在于,包括:

2.根据权利要求l所述的方法,其特征在于,s110,包括:

3.根据权利要求2所述的方法,其特征在于,s120,包括:

4.根据权利要求1所述的方法,其特征在于,s130,包括:

5.根据权利要求4所述的方法...

【专利技术属性】
技术研发人员:齐腾峰
申请(专利权)人:深圳市云初信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1