一种利用计算机自动评价科技文献新颖性的方法技术

技术编号:12830168 阅读:45 留言:0更新日期:2016-02-07 17:16
本发明专利技术提供了一种利用计算机自动评价科技文献新颖性的方法,其包括如下步骤:A、基于文档内容排序的新颖性检测;B、基于文档语义比对的新颖性检测;C、基于关键术语的新颖性检测;D、基于数值指标的新颖性检测;E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。采用本发明专利技术的方法,可基于多维度新颖性检测的科技文献自动查新,提高科技查新的效率。

【技术实现步骤摘要】

本专利技术属于科技查新
,具体涉及一种利用计算机自动评价科技文献新颖 性的方法。
技术介绍
随着我国国家创新体系的建设和自主创新能力规划的实施,国家大力推动各个重 大领域的技术创新,我国的科技项目立项数量、重大科研成果的报奖数量都在飞速增长。在 科技创新的过程中,如何能够准确选择科研方向,正确立项,避免重复立项和无效的科研投 入,少走弯路,同时在科技报奖的过程中,准确提炼科技创新点,提升科技成果的价值,都是 目前科研机构急待解决的关键问题。有研究表明,我国在进行中的科研课题至少40%是重 复其他国家已经研究成功的课题。 科技查新是为了避免科研项目的重复立项、客观评价科研项目和科技成果的新颖 性,通过各种检索手段、检索工具进行文献调查研究,并运用综合分析对比等方法,对科研 立项、成果鉴定、申报奖项等项目的新颖性提供文献依据,写出有依据、有分析对比结论的 报告的科技管理手段。作为科研立项、科技成果报奖等科研工作的有效支持,科技查新工作 在科技与经济发展中的作用越来越显著,已成为国家创新体系的重要组成部分。 目前,我国科技查新很大程度上依赖人工操作,如果能实现自动科技查新,将能很 大程度上提升查新效率。现有的自动查新技术体现在自动新颖性检测、新颖性评价等方面, 其目的在于采用计算机技术,自动检测出具备新颖性的文档。国内外很多研究机构都在研 究新颖性检测相关的技术,尤其在科技论文抄袭检测、互联网版权保护、网页查重、专利新 颖性检测等领域,已经出现了大量的研究成果。现有技术主要是对文本内容的相似度检测, 检测方法单一。本专利技术在国内首次开发基于多维智能比对的自助查新系统,可自动检测不 具创新性的申请,有利于科技项目确定正确的研究方向,提升报奖成功率,有效降低人工负 担并提升查新报告的质量和公正性。
技术实现思路
针对现有技术的问题,本专利技术的目的是提供一种利用计算机自动评价科技文献新 颖性的方法,其能够自动处理用户的查新文档,自动生成查新报告,提高科技查新的效率。 为了实现上述目的,本专利技术提供了一种利用计算机自动评价科技文献新颖性的方 法,其特征在于,包括如下步骤: A、基于文档内容排序的新颖性检测; B、基于文档语义比对的新颖性检测; C、基于关键术语的新颖性检测; D、基于数值指标的新颖性检测; E、基于步骤A-D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新 颖性总分。 基于文档内容排序的新颖性检测,是利用文档所具有的词汇集聚特性,借助语义 辞典等知识源,对文档中词语间的语义链接关系进行定义与考察,并以之为基础提出文档 的词汇链形式化表示、词汇链权重计算,采用了一种基于内容相关度的检索排序方式,从库 中检索与用户输入内容最相关的文本。 基于文档语义比对的新颖性检测,采用基于内容的相关文档检索技术,检索到查 新文献的相关文档。通过结构化比对查新文献与对比文献的之间的相关度,如果二者具有 较高的相似性或关联性,则可以判定查新文献不具备新颖性。 基于关键术语的新颖性检测,采用类似于IBM COA的机制,首先从查新文献中提取 关键技术术语。采用"早度"等指标计算各个关键术语的新颖度,最后得出整个查新文献的 新颖度,根据预先设置的阈值判定其新颖性。 基于数值指标的新颖性检测,采用一种基于数值指标项比对的策略对数值指标类 技术特征进行新颖性检测。若科技文献中存在以数值或连续变化的数值范围限定的技术特 征,例如温度、压力、组分含量等,而其余技术特征与对比文件相同,如果对比文件中公开了 该限定数值范围内的数值,包括端点的数值,则该要求保护的技术方案不具备新颖性。 根据本专利技术另一【具体实施方式】,步骤A中,利用文档所具有的词汇集聚特性,借助 语义词典知识源,对文档中词语间的语义链接关系进行定义与考察,提出文档的词汇链形 式化表示、词汇链权重计算,计算待查文档和检索库中文档的相关度,根据相关度评价查新 文档的新颖度。 根据本专利技术另一【具体实施方式】,步骤A具体包括如下步骤: AU文档特征表示; A2、建立基于倒排表的索引库; A3、查新文档经过特征表示后,与索引库中的数据进行相似性检索; A4、经过基于内容相关的粗排序后,得到候选的检索结果。 根据本专利技术另一【具体实施方式】,步骤B中,根据检索到待查文档的相关度最高的 TOP N篇相关文档,采用基于编辑距离的细排序的计算方法,计算查新文档和检索结果的结 构化文本块之间的相似度,根据相似度评价查新文档的新颖度。 根据本专利技术另一【具体实施方式】,步骤B具体包括如下步骤: B1、对后台检索库的文献数据进行结构拆分,保存到各个字段中; B2、对查新文档进行结构拆分,查新文档结构包括:标题、正文、查新点; B3、对查新文档的文档全文与后台检索库中的文档进行基于内容的粗排序,得到 相似度最高的TOP N个结果; B4、查新文档的各个结构内容分别与后台检索库的对应字段进行基于编辑距离的 比对,其中正文字段和查新点需要与所有字段都进行比较,取其中最大值作为相似度; B5、最后对结果进行加权,得到总的相似度。 根据本专利技术另一【具体实施方式】,步骤C中,是从查新文献中提取关键技术术语,采 用"早度"指标计算各个关键术语的新颖度,最后得出整个查新文献的新颖度,根据预先设 置的阈值判定其新颖性。 根据本专利技术另一【具体实施方式】,步骤C具体包括如下步骤: CU根据关键术语到索引库中检索,取到所有的检索结果; C2、取得包含该术语的相关文档总数,以及改术语出现的最早时间; C3、采用"早度"指标计算各个关键术语的新颖度; C4、在一组术语早度计算的基础上,得出整个查新文献的新颖度,根据预先设置的 阈值判定其新颖性。 根据本专利技术另一【具体实施方式】,步骤D中,采用基于数值指标项比对的策略对数 值指标类技术特征进行新颖性检测。 根据本专利技术另一【具体实施方式】,步骤D具体包括如下步骤: D1、对查新文档进行数字指标抽取; D2、查新文档中抽取的指标与相似文档中抽取的指标进行比对; D3 :对所有抽取的指标进行比对后,统计不具备新颖性的指标的总数,根据设定的 阈值来判断数值指标的新颖度。 根据本专利技术另一【具体实施方式】,步骤D2中的比对方法如下: D2a、找到两个对比文献中相同或者相似的指标描述,相似指标的判断通过同义词 词典进行判断; D2b、判断两个指标描述的指标单位是否相同,相同则进行比对,不同则不进行比 对; D2c、该指标描述中,如果查新文档中的指标上下限和相似文档当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种利用计算机自动评价科技文献新颖性的方法,其特征在于,包括如下步骤:A、基于文档内容排序的新颖性检测;B、基于文档语义比对的新颖性检测;C、基于关键术语的新颖性检测;D、基于数值指标的新颖性检测;E、基于步骤A‑D分别得到各自的新颖性评分,运用回归模型计算出查新文档的新颖性总分。

【技术特征摘要】

【专利技术属性】
技术研发人员:王庆红韦嵘晖李广凯郑金周育忠张自锋乔春庚刘超王洪俊肖诗斌施水才
申请(专利权)人:南方电网科学研究院有限责任公司中国南方电网有限责任公司电网技术研究中心北京拓尔思信息技术股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1