一种面向国防科技领域的文本关键词提取方法及系统技术方案

技术编号:21952796 阅读:56 留言:0更新日期:2019-08-24 17:51
本发明专利技术公开了一种面向国防科技领域的文本关键词提取方法及系统。所述方法通过大量样本训练出一套能从国防科技某一领域的文本中精准提取能表征文章主要内容的关键词的机器处理机制,训练样本的质与量保证了关键词提取的正确性与权威性,完整的训练方法保证了提取过程改善的持续性。采用本发明专利技术方法提取的关键词是根据其指代的概念特征提取的,即便其本身可能并未在文章中出现,但仍能够通过语义特征准确反映文章主题,从而解决了基于词频方法提取关键词不够准确、检索命中率不高的问题。

A Text Keyword Extraction Method and System for National Defense Science and Technology

【技术实现步骤摘要】
一种面向国防科技领域的文本关键词提取方法及系统
本专利技术涉及文章检索
,特别是涉及一种面向国防科技领域的文本关键词提取方法及系统。
技术介绍
对于检索系统来说,其核心问题是从一篇文本中提取出关键词,表征这篇文本的主要内容。当用户搜索该关键词时,能快速检索到该文本。当前国防科技领域采用的自动提取关键词的方法以词频统计为主,这种方法具有一定不合理性,提取的关键词存在无法充分表达文章主题思想的情况,从而降低了用户检索命中率,不利于资源的合理利用。
技术实现思路
本专利技术的目的是提供一种面向国防科技领域的文本关键词提取方法及系统,以解决以词频统计为主的关键词提取方法提取关键词不准确的问题。为实现上述目的,本专利技术提供了如下方案:一种面向国防科技领域的文本关键词提取方法,所述方法包括:获取大量国防科技领域的电子文本作为训练样本;根据所述电子文本的题录信息提取所述训练样本的一类关键词;采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;判断所述相似度是否高于相似度阈值,获得第一判断结果;若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述采用特征判断规则提取所述训练样本的二类关键词的步骤。可选的,所述获取大量国防科技领域的电子文本作为训练样本,具体包括:获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。可选的,所述根据所述电子文本的题录信息提取所述训练样本的一类关键词,具体包括:提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。可选的,所述采用特征判断规则提取所述训练样本的二类关键词,具体包括:采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。一种面向国防科技领域的文本关键词提取系统,所述系统包括:训练样本获取模块,用于获取大量国防科技领域的电子文本作为训练样本;一类关键词提取模块,用于根据所述电子文本的题录信息提取所述训练样本的一类关键词;二类关键词提取模块,用于采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;相似度计算模块,用于采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;相似度判断模块,用于判断所述相似度是否高于相似度阈值,获得第一判断结果;关键词提取模块,用于若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;关键词重新提取模块,用于若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述二类关键词提取模块。可选的,所述训练样本获取模块,具体包括:训练样本获取单元,用于获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。可选的,所述一类关键词提取模块,具体包括:一类关键词提取单元,用于提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。可选的,所述二类关键词提取模块,具体包括:分词单元,用于采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;二类关键词提取单元,用于根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供一种面向国防科技领域的文本关键词提取方法及系统,所述方法通过大量样本训练出一套能从国防科技某一领域的文本中精准提取能表征文章主要内容的关键词的机器处理机制,训练样本的质与量保证了关键词提取的正确性与权威性,完整的训练方法保证了提取过程改善的持续性。采用本专利技术方法提取的关键词是根据其指代的概念特征提取的,即便其本身可能并未在文章中出现,但仍能够通过语义特征准确反映文章主题,从而解决了基于词频方法提取关键词不够准确、检索命中率不高的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据本专利技术提供的附图获得其他的附图。图1为本专利技术提供的面向国防科技领域的文本关键词提取方法的方法流程图;图2为本专利技术提供的面向国防科技领域的文本关键词提取方法的基本原理图;图3为本专利技术提供的面向国防科技领域的文本关键词提取系统的系统结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种面向国防科技领域的文本关键词提取方法及系统,以解决以词频统计为主的关键词提取方法提取关键词不准确的问题。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术提供的面向国防科技领域的文本关键词提取方法的方法流程图。图2为本专利技术提供的面向国防科技领域的文本关键词提取方法的基本原理图。参见图1和图2,所述面向国防科技领域的文本关键词提取方法包括:步骤101:获取大量国防科技领域的电子文本作为训练样本。获取大量的国防科技某一领域的电子文本作为训练样本。国防科技某一领域的电子文本是记载国防科技某一领域相关信息的文字载体,包括国防科技某一领域相关的科技报告、会议论文、期刊文章、新闻资讯、图书、学位论文、专利信息等。此处大量指50000篇以上,每篇电子文本均包括原文文档和对应的题录信息,所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项。题录信息中关键词一项包含至少3个关键词,关键词源自官方给定的题录信息,具备较高的权威性和准确性。同时建立国防科技某一领域的概念体系和特征判断规则,即形成国防科技某一领域的概念特征数据库。具体步骤如下:S1.1:根据国防科技某一领域的长期工作积累,形成国防科技某一领域的概念体系。所述概念体系可能包括多个层级,层与层之间具有从属关系,以国防科技的工程科学领域为例,工程科学作为第一层级,其下属的机械工程、工程热物理、电工学科等概念节点作为第二层级,机械工程下属的机构学与机器人、传动机械学、机械动力学等概念节点作为第三层级,本文档来自技高网...

【技术保护点】
1.一种面向国防科技领域的文本关键词提取方法,其特征在于,所述方法包括:获取大量国防科技领域的电子文本作为训练样本;根据所述电子文本的题录信息提取所述训练样本的一类关键词;采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;判断所述相似度是否高于相似度阈值,获得第一判断结果;若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述采用特征判断规则提取所述训练样本的二类关键词的步骤。

【技术特征摘要】
1.一种面向国防科技领域的文本关键词提取方法,其特征在于,所述方法包括:获取大量国防科技领域的电子文本作为训练样本;根据所述电子文本的题录信息提取所述训练样本的一类关键词;采用特征判断规则提取所述训练样本的二类关键词;所述特征判断规则包括文字规则和搭配规则;采用编辑距离算法计算所述一类关键词与所述二类关键词的相似度;判断所述相似度是否高于相似度阈值,获得第一判断结果;若所述第一判断结果为所述相似度高于相似度阈值,增加所述二类关键词为所述电子文本的关键词;若所述第一判断结果为所述相似度不高于所述相似度阈值,修改所述特征判断规则,返回所述采用特征判断规则提取所述训练样本的二类关键词的步骤。2.根据权利要求1所述的文本关键词提取方法,其特征在于,所述获取大量国防科技领域的电子文本作为训练样本,具体包括:获取50000篇以上的国防科技领域的电子文本作为训练样本;每篇所述电子文本均包括原文文档和对应的题录信息;所述题录信息包括所述原文文档的标题、摘要、作者、作者单位、发布机构、发布时间、会议名称、学位、期刊名称、原文链接以及关键词项,所述关键词项中包含所述原文文档的至少3个关键词。3.根据权利要求2所述的文本关键词提取方法,其特征在于,所述根据所述电子文本的题录信息提取所述训练样本的一类关键词,具体包括:提取所述关键词项中的前3至5个关键词作为所述训练样本的一类关键词。4.根据权利要求3所述的文本关键词提取方法,其特征在于,所述采用特征判断规则提取所述训练样本的二类关键词,具体包括:采用基于隐马尔可夫模型的分词算法将所述训练样本分成一系列词语;根据所述特征判断规则提取所述一系列词语中符合所述文字规则或所述搭配规则的词语作为所述训练样本的二类关键词。5.一种面向国防科技领域的文本关键词提取系统,其特征在于,...

【专利技术属性】
技术研发人员:孙孟阳晏裕生姚晗董文轩程洁丹江洋
申请(专利权)人:中国船舶工业综合技术经济研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1