当前位置: 首页 > 专利查询>毛彬专利>正文

一种面向新兴技术预测的佐证事实的抽取方法及系统技术方案

技术编号:24613793 阅读:75 留言:0更新日期:2020-06-24 01:17
本发明专利技术公开了一种面向新兴技术预测的佐证事实的抽取方法及系统,所述方法包括:针对新兴技术构造一条辅助声明,构建佐证数据的语料文档集;进行关键词匹配,得到候选文档集合;计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档;对K个最相关文档的所有句子构建句子集,计算每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子;根据四个特征维度进行特征提取,获取每个句子的特征表示;将L条佐证句子和特征表示输入训练好的排序模型,输出经过排序的结果句子集。

A method and system of evidence extraction for new technology prediction

【技术实现步骤摘要】
一种面向新兴技术预测的佐证事实的抽取方法及系统
本专利技术涉及计算机语言学领域,尤其涉及计算机自然语言处理领域,特别涉及一种面向新兴技术预测的佐证事实的抽取方法及系统。
技术介绍
新兴技术预测对于企业和政府具有重要战略意义,尤其在制定技术投资策略和战略布局方面。然而作为一个研究领域,对于如何识别和判定技术是否属于新兴技术在学术界和产业界还没有形成统一的共识。现在大多数尝试都致力于研究和开发预测系统,然而对于系统的输出结果缺乏可解释性。相比于预测新兴技术,尤其是预测准确性和可信度尚不可知的系统和方法,提供一种可应用于新兴技术预测的证据抽取方法更具有可行性。NSMN:NeuralSemanticMatchingNetwork(神经语义匹配网络),由四层组成,具体为:1、编码层,是一个双向-长短期记忆网络(BidirectionalLSTM),对输入句子的每一个词进行编码,设两个输入序列为则其中d0,d1为改层输入和输出表示维度,n,m为两个输入序列的词长。2、对准层,获得两个输入序列对准后的表示。首先生成一个本文档来自技高网...

【技术保护点】
1.一种面向新兴技术预测的佐证事实的抽取方法,所述方法包括:/n针对新兴技术构造一条辅助声明,构建一个佐证数据的语料文档集;/n对语料文档集进行关键词匹配,得到候选文档集合;/n计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档;/n对K个最相关文档的所有句子构建句子集,计算句子集中每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子;/n针对L条佐证句子,根据四个特征维度进行特征提取,获取每个句子的特征表示;/n将L条佐证句子和特征表示...

【技术特征摘要】
1.一种面向新兴技术预测的佐证事实的抽取方法,所述方法包括:
针对新兴技术构造一条辅助声明,构建一个佐证数据的语料文档集;
对语料文档集进行关键词匹配,得到候选文档集合;
计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档;
对K个最相关文档的所有句子构建句子集,计算句子集中每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子;
针对L条佐证句子,根据四个特征维度进行特征提取,获取每个句子的特征表示;
将L条佐证句子和特征表示同时输入训练好的排序模型,输出经过排序的结果句子集。


2.根据权利要求1所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述对语料文档集进行关键词匹配,得到候选文档集合,具体为:
对语料文档集的文档标题和文档的首句,进行关键词匹配,获取候选文档集合。


3.根据权利要求2所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述计算候选文档集合中每个文档和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得K个最相关文档,具体包括:
用神经语义匹配网络对候选文档集与辅助声明进行处理,其中每一篇文档用标题和首句表示,计算得到每一篇文档的语义匹配系数p1;用辅助声明与文档所有句子,计算得到语义相关系数m1+;
根据第一阈值对语义匹配系数p1值进行过滤,得到获选文档集中匹配的文档;
根据语义相关系数m1+,对匹配的文档进行排序,获取前K篇文档。


4.根据权利要求3所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述对K个最相关文档的所有句子构建句子集,计算句子集中每个句子和辅助声明的语义匹配系数和语义相关系数,根据语义匹配系数进行阈值过滤,根据语义相关系数进行排序,获得L条佐证句子,具体为:
对K个文档的所有句子构造句子集;
用神经语义匹配网络对句子集与辅助声明进行处理,计算得到每一个句子的语义匹配系数p2;用辅助声明与句子集,计算得到语义相关系数m2+;
根据第二阈值对语义匹配系数值p2进行过滤,得到匹配的句子;
根据语义相关系数m2+,对匹配的句子进行排序,获取前L条句子。


5.根据权利要求1所述的面向新兴技术预测的佐证事实的抽取方法,其特征在于,所述四个特征维度包括:发展力、可信度、先进性和显著性,所述发展力和可信度衡量外部市场和研究组织的对该技...

【专利技术属性】
技术研发人员:毛彬罗准辰郑安庆罗威谭玉珊田昌海叶宇铭宋宇吴叔義
申请(专利权)人:毛彬中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1