一种从文章中提取关键词的方法技术

技术编号:9642528 阅读:75 留言:0更新日期:2014-02-07 01:13
本发明专利技术提供一种从文章中提取关键词的方法,包括:对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;选取同义词链中的一个代表词,按一定规则分别计算出所述词语的词频变量值,区域位置变量值及分词距离次序变量值;根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提高了提取关键词的准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术提供,包括:对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;选取同义词链中的一个代表词,按一定规则分别计算出所述词语的词频变量值,区域位置变量值及分词距离次序变量值;根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提高了提取关键词的准确率。【专利说明】—种从文章中提取关键词的方法
本专利技术涉及计算机
,尤其涉及。
技术介绍
互联网络积累了海量的文本信息,如何高效地检索文本信息成为亟需解决的技术问题。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而本文关键词提取在上述方面有着广发的应用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网信息建库的一项重要的工作,英文文本的关键词自动标引的研究起步较早,已开发了一些相关的系统。主要有Turney在C4.5决策树算法基础上实现的GenEx系统。该系统使用遗传算法训练关键词提取器,然后提取器以文档为输入,经过处理后输出关键词;Frank等人提出了基于朴素贝叶斯方法的提取算法,使用离散的短语特征值训练统计学习模型以获取输入参数,较好地实现了关键词的自动提取。由于汉语没有显示词的词边界,其关键词的自动抽取问题较英文文本的相同问题更为困难。为此要依次对文本进行应用分词算法、词法分析、语法处理以及语义分析,使用最多的一种方法是基于PAT Tree结构获取新词。另外有学者研究提出了最优概率分布的方法,并建立了一个特征集合,再根据丰富的语言特征来判断候选项是否可以选做文档的关键词。而基于语义的关键词提取算法在统计信息的基础上着重强调了语义对关键词判断的影响。此外,基于词汇链的关键词提取算法则在分词词频、文档反频、分词位置等基本统计手段的基础上,引入了词汇链的概念。然而,现有中文文本关键词提取算法需要较大的空间代价,资源占用多,导致其实用性受限,此外,实际应用系统工作通常基于高频词提取等手段,但文档中的关键字往往并不都是高频词,导致提取关键词的准确率低。
技术实现思路
本专利技术的目的是克服现有技术中的不足之处,提供,解决了现有技术中关键词提取算法资源占用多,提取的准确率低的问题,降低了系统资源占用率,提闻了提取关键词的准确率。本专利技术实施例提供,包括:对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词。通过本专利技术实施例提供的方法,选取词频、区域位置以及分词距离次序作为衡量关键词权重的主要因素,并为每一个因素构建了非线性计算函数。同时,利用训练样例训练该公式的调整因子是的其更好的逼近训练取值,并与已有相关工作进行了比较实验,其结果表明该方法改进了文本关键词提取算法的查准率和查全率,并具有良好的扩展性,可应用于文本信息处理中的自动关键词提取。【专利附图】【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一的方法流程图.【具体实施方式】为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1是本专利技术实施例一的方法流程图,如图1所示,该方法包括:S101、对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;需要说明的是,本专利技术的实施主体可以是计算机,也可以是终端,本专利技术实施例对此并无限制。停用词是指那些不能反映主题的功能词,它们不但不能反映文献的主题,而且还会对关键词的抽取造成干扰,有必要将其滤除。停用词通常包含虚词、实词以及标点符号。如,在对文本扫描、进行词频统计时,有目的性地去掉一些对文章的关键词的抽取无实质作用的实词、虚词或标点,以避免对实验结果造成干扰。如标点“,”、“。”,实、实虚词如:我、他、你、的、地等,在词频统计前就将这些词语过滤掉。之所以进行词性过滤,是因为在汉语言中,这些词语或标点对标识文本的类别特性并没有贡献。如果把这些对文本分类没有意义的实虚词或标点作为文本特征词,将会带来很大的噪音,从而直接降低文本分词的效率和准确率。因此,在提取文本特征时,首先考虑剔除这些对文本分类没有用的虚词。同义词链是指文档中根据上下文信息确定词义相同或相似的词的集合。基本思想是:根据上下文信息,利用词义相似度确定词汇在具体语境下的词义,用该词义代替词,利用义项相似度计算得到一系列的同义词,组成同义词链。同义词的构建,主要是考虑到一篇文章中,也许对相同人、物、事前后称呼有些许不同,但它们其实是代表同一个意思,如:李天王、李某某、李某人、李天一,实际上,这4个词都可以归纳到同一个关键词中:李天一。采用同义词的构建主要是为了提高这种关键词提取结果的准确性。S102、选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;其中,词频是对词的一种最简单的测度,也是最常用的参数之一。可以直接用它表示词在篇章或类别中的权重,这种处理方法假定一个词的重要程度与它出现的次数成正比例;区域位置:经调查发现,出现在标题中的词比出现在摘要中的词更能反映文献的主题,而出现在摘要中的词比出现在正文中的词更能反映文献主题,同时出现在首段中的词比其他段落中的词更能反映文献的主题;分词举例次序:随着文本长度的增加,利用词语第一次在文本中出现时距离文本开头的距离来衡量词语反映文本主题的价值也是很有意义的。因此,可将该因素引入关键词的抽取算法中,用来反映词语在文本中的权重。其中,所述分别计算出所述词语的词频值,区域位置值及分词距离次序值,具体为:一、计算出所述词语在所述词语集合中的出现次数,该结果为所述词频值。二、对文章结构进行分类,按照不同类别分别统计所述词语在该类别中的出现次数,该结果为所述区域位置值,所述类别包括标题类、摘要类、段首类、段中类以及结尾类。需要说明的是,按照不同类别分别统计所述词语在该类别中的出现次数,具体为:根据公式loci=ciXBT+diXZY+eiXDS+fiXDZ+giXJW计算出所述区域位置值,其中,1ci是所述词语i的区域位置值,BT是所述词语在标题中的出现次数,ZY是所述词语在摘要中的出现次数,DS是所述词语在段首中的出现次数,DZ是所述词语在段中的出现次数,JW是所述词语在结尾中的出现次数,c、d、e、f、h为预设置的常数本文档来自技高网
...

【技术保护点】
一种从文章中提取关键词的方法,其特征在于,包括:对文章进行预处理,得到文本的词语集合,所述预处理包括去除停用词、进行词性过滤以及同义词链构建;选取同义词链中的一个代表词,分别计算出所述词语的词频值,区域位置值及分词距离次序值;根据所述词语的词频值,区域位置值及分词距离次序值,计算出所述词语的权重值,并根据所述权重值判定是否将所述词语作为所述文章的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广东利为网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1