一种面向领域评估预测的技术清单生成方法和系统技术方案

技术编号:27620220 阅读:24 留言:0更新日期:2021-03-10 10:59
本发明专利技术公开了一种面向领域的评估预测技术清单生成方法和系统,所述方法包括:对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表;对领域高频技术名词词表的技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,进一步过滤,得到领域技术清单。得到领域技术清单。得到领域技术清单。

【技术实现步骤摘要】
一种面向领域评估预测的技术清单生成方法和系统


[0001]本专利技术涉及计算机语言学领域,涉及计算机自然语言处理领域,尤其涉及一种面向领域的评估预测技术清单生成方法和系统。

技术介绍

[0002]新兴技术是科技创新的动力之源。在国防领域,大国之间的博弈日趋激烈,机会稍纵即逝,发展新兴技术对打破战略攻防平衡、颠覆军事技术思维产生重大影响。由于新兴技术具有高度的市场不确定性和技术不确定性,对其进行早期识别具有相当的难度。传统的新兴技术早期识别主要依靠专家智慧,需要广泛调动专家的力量进行调研,工作量巨大,往往只能针对较少的
,而且受制于专家专业素养、洞察能力、认为偏见的因素限制,准确性难以评估。充分挖掘科技信息大数据的价值,从中及时发现新兴技术线索、科学评估相关特性,可以有效提升新兴技术识别的效率,在看清方向、看清道路方面更好的实现人机结合,具有重要的现实意义。
[0003]Learn-to-rank是一种有监督学习方法。对给定查询-文档对(query document pair),抽取相应特征,获取给定查询下文档集和真实序列,然后通过learning-to-rank的各种算法得到排序模型,使得输出序列和真实序列尽可能相似。SVMrank是一种pairwise的learning-to-rank算法,通过将排序问题转换成分类问题,然后使用svm分类模型进行学习并求解。其中pairwise方法考虑给定查询下,两个文档之间的相对相关度,其中本专利技术的方法中采用该模型进行训练。
[0004]Tagme算法,具体实现思路:根据维基百科中词条链接关系构建锚点数据集,并基于上下文共现情况计算词条之间的相关性;通过对输入文本进行锚点解析构建锚点候选集,计算候选链接实体的整体相关性,选取整体相关性最大的候选链接实体集合,作为最终实体链接的结果。
[0005]Fasttex是Facebook于2016年开源的一个词向量计算和文本分类工具,主要是将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类,是一个快速文本分类工具。
[0006]Bi-LSTM-CRF是自然语言序列标注算法,可用于实体识别,发展于LSTM(长短记忆模型)的扩展双向LSTM,结合CRF(条件随机场),旨在进一步解决序列标注中一词多义的特殊情况。
[0007]新兴度(Emergence Score)算法,通过定义两个区间和一个准入条件在时间维度上对特定术语对象进行聚合统计,分别得到定义活跃期趋势(Active Period Trend)、近期趋势(Recent Trend)、中期至近期变化率(Mid-Year To Last Year Slope)三个变化率,进一步得出该术语对象的新兴度值。其中两个区间分别为基础期(base period)、活跃期(active period),通常基础期定义为最初3年,活跃期定义为最近7年;准入条件初筛术语候选集,包括1)至少出现时间跨度为3年,2)至少出现了7次,3)活跃期与基础期的频次比至少为2:1,4)总频次在基础期的占比不能超过15%。具体计算方式为:
[0008][0009][0010][0011]EScore=2*ActivePeriodTrend+(RecentTrend+MidYearToLastYearSlope)其中,RecordCount
i
代表第i年的记录数,ActivePeriodTread代表活跃期趋势,RecentTrend代表近期趋势,MidYearToLastYearSlope代表中期至近期变化率。

技术实现思路

[0012]本专利技术的目的在于克服现有技术缺陷,针对领域技术评估预测的清单生成,提出一种面向领域的评估预测技术清单生成方法和系统,基于数据驱动自动生成,辅助研究人员做进一步的技术评估和预测,为领域技术布局和决策提供支撑。所述方法适用于实现领域技术评估预测的技术清单自动生成;
[0013]为了实现上述目的,本专利技术提出了一种面向领域的评估预测技术清单生成方法,所述方法包括:
[0014]步骤1)对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;
[0015]步骤2)采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;
[0016]步骤3)对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表;
[0017]步骤4)对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;
[0018]步骤5)采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;
[0019]步骤6)基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;
[0020]步骤7)将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,结合规则匹配方法进一步过滤,得到领域技术清单。
[0021]作为上述方法的一种改进,所述步骤1)具体包括:
[0022]步骤1-1)对海量科技信息文本进行名词短语识别,然后采用Tagme算法进行实体链接,识别出科技信息文本中归一后的实体词集,并与文本进行关联映射;
[0023]步骤1-2)根据预先积累的技术词表对海量科技信息文本进行匹配提取得到技术词集,并与文本进行关联映射;
[0024]步骤1-3)根据预先训练好的技术名词识别模型,识别科技文本中的技术名词得到技术名词集,并与文本进行关联映射;
[0025]步骤1-4)对实体词集、技术词集和技术名词集,按可信度赋予不同词频权重,得到映射语料集。
[0026]作为上述方法的一种改进,所述步骤4)具体包括:
[0027]步骤4-1)对领域高频技术名词词表中的每个技术名词w,统计领域映射语料集中近10年的年度词频Count
w
=[c1,c2,...,c
i
,...,c
10
],c
i
为第i年的年度词频,由下式计算该技术名词年度是否出现的序列Exist
w
为:
[0028]Exist
w
=[e1,e2,...,e
i
,...,e
10
],e
i
=1 if c
i
>0 else 0
[0029]其中,e
i
代表该技术名词在第i年是否出现,出现为1,否则为0;
[0030]由下式计算该技术名词在基础期的词频总数Count
w_base
为:
[0031]Count
w_base
=∑
i=1,2,3
c
i
[0032]由下式计算该技术名词在活跃期的词频总数Count
w_active
为:
[0033]Count
w_act本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向领域的评估预测技术清单生成方法,所述方法包括:步骤1)对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;步骤2)采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;步骤3)对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表;步骤4)对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;步骤5)采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;步骤6)基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;步骤7)将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,结合规则匹配方法进一步过滤,得到领域技术清单。2.根据权利要求1所述的面向领域的评估预测技术清单生成方法,其特征在于,所述步骤1)具体包括:步骤1-1)对海量科技信息文本进行名词短语识别,然后采用Tagme算法进行实体链接,识别出科技信息文本中归一后的实体词集,并与文本进行关联映射;步骤1-2)根据预先积累的技术词表对海量科技信息文本进行匹配提取得到技术词集,并与文本进行关联映射;步骤1-3)根据预先训练好的技术名词识别模型,识别科技文本中的技术名词得到技术名词集,并与文本进行关联映射;步骤1-4)对实体词集、技术词集和技术名词集,按可信度赋予不同词频权重,得到映射语料集。3.根据权利要求2所述的面向领域的评估预测技术清单生成方法,其特征在于,所述步骤4)具体包括:步骤4-1)对领域高频技术名词词表中的每个技术名词w,统计领域映射语料集中近10年的年度词频Count
w
=[c1,c2,...,c
i
,...,c
10
],c
i
为第i年的年度词频,由下式计算该技术名词年度是否出现的序列Exist
w
为:Exist
w
=[e1,e2,...,e
i
,...,e
10
],e
i
=1ifc
i
>0else0其中,e
i
代表该技术名词在第i年是否出现,出现为1,否则为0;由下式计算该技术名词在基础期的词频总数Count
w_base
为:Count
w_base
=∑
i=1,2,3
c
i
由下式计算该技术名词在活跃期的词频总数Count
w_active
为:Count
w_active
=∑
i=4..10
c
i
判断当该技术名词在Exist
w
中出现超过3次,且在Count
w
中超过7次且Count
w_active
/Count
w_base
>2且Count
w_active
/∑Count
w
<0.15时,由下式计算得到该技术名词的新兴度值Escore
w
,否则该技术名词的新兴度值Escore
w
为负无穷大:Escore
w
=2*APT+(RT+MYS)其中,APT为该技术名词的活跃期趋势:
由下式计算该技术名词的近期趋势RT为:当c
7-c4为0时,令c
7-c4=1,由下式计算该技术名词的中期至近期变化率MYS为:步骤4-2)由下式计算该技术名词的年度是否增长序列Rate
w
为:Rate
w
=[r1,r2,...,r
i
,...,r9],r
i
=1ifc
i+1-c
i
>0else-1;其中,r
i
代表第i年到i+1年是否增长,如果增长为1,否则为-1;由下式计算该技术名词的成熟度值Maturity
w
为:Maturity
w
=[5+∑Rate
...

【专利技术属性】
技术研发人员:毛彬罗威谭玉珊罗准辰武帅钱旭田昌海叶宇铭宋宇胡明昊
申请(专利权)人:中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1