一种从文章中提取关键词的方法技术

技术编号：9642528 阅读：75 留言：0更新日期：2014-02-07 01:13

本发明专利技术提供一种从文章中提取关键词的方法，包括：对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；选取同义词链中的一个代表词，按一定规则分别计算出所述词语的词频变量值，区域位置变量值及分词距离次序变量值；根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词，解决了现有技术中关键词提取算法资源占用多，提取的准确率低的问题，降低了系统资源占用率，提高了提取关键词的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供，包括：对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；选取同义词链中的一个代表词，按一定规则分别计算出所述词语的词频变量值，区域位置变量值及分词距离次序变量值；根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词，解决了现有技术中关键词提取算法资源占用多，提取的准确率低的问题，降低了系统资源占用率，提高了提取关键词的准确率。【专利说明】—种从文章中提取关键词的方法
本专利技术涉及计算机
，尤其涉及。
技术介绍
互联网络积累了海量的文本信息，如何高效地检索文本信息成为亟需解决的技术问题。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容，而本文关键词提取在上述方面有着广发的应用，它不仅是进行这些工作不可缺少的基础和前提，也是互联网信息建库的一项重要的工作，英文文本的关键词自动标引的研究起步较早，已开发了一些相关的系统。主要有Turney在C4.5决策树算法基础上实现的GenEx系统。该系统使用遗传算法训练关键词提取器，然后提取器以文档为输入，经过处理后输出关键词；Frank等人提出了基于朴素贝叶斯方法的提取算法，使用离散的短语特征值训练统计学习模型以获取输入参数，较好地实现了关键词的自动提取。由于汉语没有显示词的词边界，其关键词的自动抽取问题较英文文本的相同问题更为困难。为此要依次对文本进行应用分词算法、词法分析、语法处理以及语义分析，使用最多的一种方法是基于PAT Tree结构...

【技术保护点】
一种从文章中提取关键词的方法，其特征在于，包括：对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；选取同义词链中的一个代表词，分别计算出所述词语的词频值，区域位置值及分词距离次序值；根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐波，
申请(专利权)人：广东利为网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人