当前位置: 首页 > 专利查询>中国人民解放军军事科学院军事科学信息研究中心专利>正文

一种面向领域评估预测的技术清单生成方法和系统技术方案

技术编号：27620220 阅读：24 留言：0更新日期：2021-03-10 10:59

本发明专利技术公开了一种面向领域的评估预测技术清单生成方法和系统，所述方法包括：对海量科技信息文本进行技术名词抽取和识别，得到映射语料集；采用预先训练好的领域分类模型对映射语料集进行分类，得到领域映射语料集；对领域映射语料集进行技术名词的词频聚合统计，提取前多个技术名词，得到领域高频技术名词词表；对领域高频技术名词词表的技术名词分别计算新兴度指标和成熟度指标，得到领域初选清单；采用预先训练好的排序模型对领域初选清单进行排序，提取前多个得到领域初始清单；基于开源知识库对领域初始清单进行信息补全，得到领域详细清单；将领域详细清单输入预先训练好的技术二分类模型进行技术性判别，进一步过滤，得到领域技术清单。得到领域技术清单。得到领域技术清单。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向领域评估预测的技术清单生成方法和系统

[0001]本专利技术涉及计算机语言学领域，涉及计算机自然语言处理领域，尤其涉及一种面向领域的评估预测技术清单生成方法和系统。

技术介绍

[0002]新兴技术是科技创新的动力之源。在国防领域，大国之间的博弈日趋激烈，机会稍纵即逝，发展新兴技术对打破战略攻防平衡、颠覆军事技术思维产生重大影响。由于新兴技术具有高度的市场不确定性和技术不确定性，对其进行早期识别具有相当的难度。传统的新兴技术早期识别主要依靠专家智慧，需要广泛调动专家的力量进行调研，工作量巨大，往往只能针对较少的
，而且受制于专家专业素养、洞察能力、认为偏见的因素限制，准确性难以评估。充分挖掘科技信息大数据的价值，从中及时发现新兴技术线索、科学评估相关特性，可以有效提升新兴技术识别的效率，在看清方向、看清道路方面更好的实现人机结合，具有重要的现实意义。
[0003]Learn-to-rank是一种有监督学习方法。对给定查询-文档对(query document pair)，抽取相应特征，获取给定查询下文档集和真实序列，然后通过learning-to-rank的各种算法得到排序模型，使得输出序列和真实序列尽可能相似。SVMrank是一种pairwise的learning-to-rank算法，通过将排序问题转换成分类问题，然后使用svm分类模型进行学习并求解。其中pairwise方法考虑给定查询下，两个文档之间的相对相关度，其中本专利技术的方法中采用该模型进行训练。
[0004]Tagme算法，...

【技术保护点】

【技术特征摘要】
1.一种面向领域的评估预测技术清单生成方法，所述方法包括：步骤1)对海量科技信息文本进行技术名词抽取和识别，得到映射语料集；步骤2)采用预先训练好的领域分类模型对映射语料集进行分类，得到领域映射语料集；步骤3)对领域映射语料集进行技术名词的词频聚合统计，提取前多个技术名词，得到领域高频技术名词词表；步骤4)对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标，得到领域初选清单；步骤5)采用预先训练好的排序模型对领域初选清单进行排序，提取前多个得到领域初始清单；步骤6)基于开源知识库对领域初始清单进行信息补全，得到领域详细清单；步骤7)将领域详细清单输入预先训练好的技术二分类模型进行技术性判别，结合规则匹配方法进一步过滤，得到领域技术清单。2.根据权利要求1所述的面向领域的评估预测技术清单生成方法，其特征在于，所述步骤1)具体包括：步骤1-1)对海量科技信息文本进行名词短语识别，然后采用Tagme算法进行实体链接，识别出科技信息文本中归一后的实体词集，并与文本进行关联映射；步骤1-2)根据预先积累的技术词表对海量科技信息文本进行匹配提取得到技术词集，并与文本进行关联映射；步骤1-3)根据预先训练好的技术名词识别模型，识别科技文本中的技术名词得到技术名词集，并与文本进行关联映射；步骤1-4)对实体词集、技术词集和技术名词集，按可信度赋予不同词频权重，得到映射语料集。3.根据权利要求2所述的面向领域的评估预测技术清单生成方法，其特征在于，所述步骤4)具体包括：步骤4-1)对领域高频技术名词词表中的每个技术名词w，统计领域映射语料集中近10年的年度词频Count
w
＝[c1,c2,...,c
i
,...,c
10
]，c
i
为第i年的年度词频，由下式计算该技术名词年度是否出现的序列Exist
w
为：Exist
w
＝[e1,e2,...,e
i
,...,e
10
],e
i
＝1ifc
i
＞0else0其中，e
i
代表该技术名词在第i年是否出现，出现为1，否则为0；由下式计算该技术名词在基础期的词频总数Count
w_base
为：Count
w_base
＝∑
i＝1,2,3
c
i
由下式计算该技术名词在活跃期的词频总数Count
w_active
为：Count
w_active
＝∑
i＝4..10
c
i
判断当该技术名词在Exist
w
中出现超过3次，且在Count
w
中超过7次且Count
w_active
/Count
w_base
＞2且Count
w_active
/∑Count
w
＜0.15时，由下式计算得到该技术名词的新兴度值Escore
w
，否则该技术名词的新兴度值Escore
w
为负无穷大：Escore
w
＝2*APT+(RT+MYS)其中，APT为该技术名词的活跃期趋势：
由下式计算该技术名词的近期趋势RT为：当c
7-c4为0时，令c
7-c4＝1，由下式计算该技术名词的中期至近期变化率MYS为：步骤4-2)由下式计算该技术名词的年度是否增长序列Rate
w
为：Rate
w
＝[r1,r2,...,r
i
,...,r9],r
i
＝1ifc
i+1-c
i
＞0else-1；其中，r
i
代表第i年到i+1年是否增长，如果增长为1，否则为-1；由下式计算该技术名词的成熟度值Maturity
w
为：Maturity
w
＝[5+∑Rate
...

【专利技术属性】
技术研发人员：毛彬，罗威，谭玉珊，罗准辰，武帅，钱旭，田昌海，叶宇铭，宋宇，胡明昊，
申请(专利权)人：中国人民解放军军事科学院军事科学信息研究中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人