技术主题多指标计算及趋势预测方法及装置制造方法及图纸

技术编号:32127971 阅读:16 留言:0更新日期:2022-01-29 19:20
本发明专利技术提供了一种技术主题多指标计算及趋势预测的方法及装置,其中,该方法包括:获取多个论文文本数据,对多个论文文本数据的关键字段进行预处理操作,其中,关键字段包括:论文标题、摘要和关键词;根据预处理操作后的关键字段,进行多特征权重计算,采用LDA主题模型对加权后的多特征字段进行技术主题提取;基于提取的技术主题,设计多个衡量技术主题先进性的指标度量方法,并统计技术主题指标的指标值,其中,技术主题指标包括:强度、稳定度、新兴度、前沿度;基于指标值,采用Logistic模型对技术主题发展趋势进行预测,并做技术主题之间的对比分析。该方法提取文本多重特征,明确主题划分,形成了通用的技术主题指标计算和趋势预测方法。方法。方法。

【技术实现步骤摘要】
技术主题多指标计算及趋势预测方法及装置


[0001]本专利技术涉及文本主题识别和趋势预测领域,特别涉及一种技术主题多指标计算和趋势预测方法及装置。

技术介绍

[0002]技术主题识别与趋势预测,洞察各领域学术发展趋势,形成科技热点分析、科技趋势分析等技术趋势分析工具,以支撑各层级的科技决策,为占据全球科技制高点和实现世界科技强国伟大目标提供技术支撑,对促进科技创新、打破国际垄断、填补国内空白具有重要意义。学术论文作为科研成果的主要载体之一,蕴含着大量科学研究主题,分析特定研究领域论文的技术主题演化过程和趋势,从宏观上把握技术发展脉络,明晰技术演化趋势和重点技术的发展阶段,正逐渐成为影响政府决策和产业发展的重要驱动因素。如何快速、准确地从科研文献中提取和识别学科领域研究的前沿热点,对当前科研工作具有重要研究意义。
[0003]在技术主题识别方面,现有研究方法主要包括共词分析法、词频分析、共被引分析法、内容分析法、社会网络、主题模型等。其中,主题模型是一种能有效捕捉文档隐含主题的无监督学习方法,目前已经被广泛地应用于文本分析领域。隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型因其可以很好地模拟大规模语料的语义信息,并且能够克服标签局限性以及语义模糊性、缓解数据多维性和稀疏性等问题,在论文技术主题识别研究领域中受到研究者的关注。
[0004]在技术主题趋势预测方面,Logistic模型是基于自变量与因变量之间的多元统计分析方法,研究者广泛使用Logistic模型进行技术主题预测分析。
[0005]虽然,前期研究在技术主题识别和预测领域中取得了一定进展,为国家科技战略布局、科技工作者前沿选题提供了重要参考。但是,当前研究仍然存在一些问题。当前研究论文主题模型中,多数采用单一摘要信息进行提取特定领域的技术主题,容易造成提取的技术主题不准确且相互关联。

技术实现思路

[0006]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0007]本专利技术实施例的技术主题多指标计算及趋势预测方法,解决了当前研究论文主题模型中,多数采用单一摘要信息进行提取特定领域的技术主题,容易造成提取的技术主题不准确且相互关联的技术问题。
[0008]为此,本专利技术的第一个目的在于提出一种技术主题多指标计算及趋势预测方法,包括:
[0009]获取多个论文文本数据,对所述多个论文文本数据的关键字段进行预处理操作;其中,所述关键字段包括:论文标题、摘要和关键词;
[0010]根据预处理操作后的关键字段,进行多特征权重计算,采用LDA主题模型对加权后
的多特征字段进行技术主题提取;
[0011]基于提取的技术主题,设计多个衡量技术主题先进性的指标度量方法,并统计技术主题指标的指标值;其中,所述技术主题指标包括:强度、稳定度、新兴度、前沿度;
[0012]基于所述指标值,采用Logistic模型对所述技术主题发展趋势进行预测,并做所述技术主题之间的对比分析。
[0013]另外,根据本专利技术上述实施例的技术主题多指标计算及趋势预测方法还可以具有以下附加的技术特征:
[0014]进一步地,所述的预处理操作包括:将获取的多个论文文本数据进行纯文本格式转换、去除标点符号、数字剔除、分词处理和过滤停用词中的多种。
[0015]可选地,所述方法采用Gibbs采样更新所述LDA主题模型的超参数,采用困惑度确定最优技术主题的个数。
[0016]进一步地,多特征权重计算采用多特征字段间的相似程度度量多特征字段的权重,计算所述多特征字段之间的余弦相似度;其中,所述多特征字段的相对重要度计算公式如下:
[0017][0018][0019][0020]其中,多特征字段的权重与多特征字段的相关度成正比,n
m
为文档m中包含词项的个数;n
mi
为文档m字段T
mi
中遍历所有词项出现次数的平均值;μ
mj
计算公式同理,i,j=1,2,3。
[0021]进一步地,所述采用LDA主题模型对加权后的多特征字段进行技术主题提取,包括:
[0022]按照先验概率P(d
m
)选择一篇文档d
m

[0023]从狄利克雷分布(Dirichlet)α中取样生成所述文档d
m
的主题分布;
[0024]从所述主题分布中取样生成所述文档d
m
第n个词的主题z
m,n
,并选择概率值最大的主题;
[0025]从狄利克雷分布(Dirichlet)β中取样生成所述主题z
m,n
对应的词项分布
[0026]从所述词项分布中采样生成词项w
m,n
,并选择概率值最大的词项;
[0027]迭代上述过程,直至产生文本集。
[0028]进一步地,所述统计技术主题指标的指标值包括:
[0029]计算技术主题强度,计算公式为:
[0030][0031]其中,表示第k个技术主题下第t年的强度;表示第k个技术主题下第t年包含的文档数量,1≤k≤K;M
t
表示第t年包含的文档数量;
[0032]计算技术主题稳定度,计算公式为:
[0033][0034]其中,表示第k个技术主题下第t年的稳定度;表示第k个技术主题下第t年之前所有时间段包含文档数的标准差;表示第k个技术主题下第t年之前所有时间段包含文档数的平均值;
[0035]计算技术主题新兴度,计算公式为:
[0036][0037]其中,表示第k个技术主题下第t年的新兴度;表示第k个技术主题下第t年之前所有时间段文档发表年份的加和;表示第t年之前所有时间段包含的文档数量;
[0038]技术主题前沿度=贡献度+影响度,计算公式为:
[0039]贡献度=核心论文份额+施引论文份额;核心论文份额=核心论文数/前沿核心论文总数;施引论文份额=施引论文数/前沿施引论文总数;
[0040]影响度=核心论文被引频次份额+施引论文被引频次份额;核心论文被引频次份额=核心论文被引频次/前沿核心论文被引频次;施引论文被引频次份额=施引论文被引频次/前沿施引论文被引频次。
[0041]进一步地,所述采用Logistic模型对所述技术主题发展趋势进行预测,包括:
[0042]Logistic模型跟踪时序的非线性变化趋势,不同阶段的斜率贴合技术萌芽期、生长期、成熟期和衰退期的发展速率变化,其计算公式如下:
[0043][0044]其中,y
t
和t分别表示技术主题指标变量和时间变量,如技术主题的强度、稳定性、新兴度和前沿度四个度量指标;B为曲线能达到的最大饱和值,A表示曲线的斜率,I表示曲线凹凸转变的时间节点,I>0。
[0045]进一步地,所述采用Gibbs采样更新所述LDA主题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种技术主题多指标计算及趋势预测方法,其特征在于,包括以下步骤:获取多个论文文本数据,对所述多个论文文本数据的关键字段进行预处理操作;其中,所述关键字段包括:论文标题、摘要和关键词;根据预处理操作后的关键字段,进行多特征权重计算,采用LDA主题模型对加权后的多特征字段进行技术主题提取;基于提取的技术主题,设计多个衡量技术主题先进性的指标度量方法,并统计技术主题指标的指标值;其中,所述技术主题指标包括:强度、稳定度、新兴度、前沿度;基于所述指标值,采用Logistic模型对所述技术主题发展趋势进行预测,并做所述技术主题之间的对比分析。2.根据权利要求1所述的技术主题多指标计算及趋势预测方法,其特征在于,所述预处理操作,包括:将获取的多个论文文本数据进行纯文本格式转换、去除标点符号、数字剔除、分词处理和过滤停用词中的多种。3.根据权利要求1所述的技术主题多指标计算及趋势预测方法,其特征在于,所述方法,还包括:采用Gibbs采样更新所述LDA主题模型的超参数,采用困惑度确定最优技术主题的个数。4.根据权利要求1所述的技术主题多指标计算及趋势预测方法,其特征在于,所述多特征权重计算,包括:采用多特征字段间的相似程度度量多特征字段的权重,计算所述多特征字段之间的余弦相似度;其中,所述多特征字段的相对重要度计算公式如下:征字段的相对重要度计算公式如下:征字段的相对重要度计算公式如下:其中,多特征字段的权重与多特征字段的相关度成正比,n
m
为文档m中包含词项的个数;n
mi
为文档m字段T
mi
中遍历所有词项出现次数的平均值;μ
mj
计算公式同理,i,j=1,2,3。5.根据权利要求1所述的技术主题多指标计算及趋势预测方法,其特征在于,所述采用LDA主题模型对加权后的多特征字段进行技术主题提取,包括:按照先验概率P(d
m
)选择一篇文档d
m

从狄利克雷分布(Dirichlet)α中取样生成所述文档d
m
的主题分布θ
m
;从所述主题分布θ
m
中取样生成所述文档d
m
第n个词的主题z
m,n
,并选择概率值最大的主题;从狄利克雷分布(Dirichlet)β中取样生成所述主题z
m,n
对应的词项分布从所述词项分布中采样生成词项w
m,n
,并选择概率值最大的词项;迭代上述过程,直至产生文本集。6.根据权利要求1所述的技术主题多指标计算及趋势预测方法,其特征在于,所述统计技术主题指标的指标值,包括:计算技术主题强度,计算公式为:其中,表示第k个技术主题下第t年的强度;表示第k个技术主题下第t年包含的文档数量,1≤k≤K;M
t
表示第t年包含的文档数量;计算技术主题稳定度,计算公式为:其中,表示第k个技术主题下第t年的稳定度;表示第k个技术主...

【专利技术属性】
技术研发人员:李玥仇瑜唐杰刘德兵褚晓泉
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1