基于多种算法提升文件关键词准确度的识别方法技术

技术编号:20176819 阅读:42 留言:0更新日期:2019-01-23 00:24
本发明专利技术属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别方法。通过对比各个算法对关键词命中次数,各个算法配置的权重比可以自行配置也可以采用默认配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。算法包括采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、算法对文件及文件夹关键词准确识别提取的方法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法。通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。

Recognition Method of Improving the Accuracy of Document Keyword Based on Various Algorithms

The invention belongs to the technical field of keyword retrieval, and specifically relates to a recognition method based on a variety of algorithms to improve the accuracy of keywords in documents. By comparing the number of keyword hits of each algorithm, the weight ratio of each algorithm configuration can be self-configurable or default configuration. The number of hits can be calculated according to the weight ratio of each algorithm, and as the final result. The algorithm includes the Chinese keyword extraction algorithm based on separation model, the Chinese keyword extraction algorithm based on high-dimensional clustering technology, the method of accurate recognition and extraction of keywords in files and folders, the Chinese text keyword extraction algorithm based on semantics, and the Chinese keyword extraction algorithm based on Naive Bayesian model. Through this method, in the field of keyword retrieval technology, the accuracy of document keyword recognition method is improved based on a variety of algorithms.

【技术实现步骤摘要】
基于多种算法提升文件关键词准确度的识别方法
本专利技术属于关键词检索
,具体涉及一种基于多种算法提升文件关键词准确度的识别方法。
技术介绍
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。关键词识别检索以统一策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。目前大多数的方案主要采用分离模型算法,对关键单词提取和关键词串提取。现有技术方案由于采用算法单一,而各种算法有各自的优势和特点,采用单一算法计算关键词无法规避该算法本身的弊端。因此,目前市面上采用的关键词识别技术准确性有待提升。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何解决目前由于算法单一,无法结合多种扫描结果进行准确的综合分析的问题。(二)技术方案为解决上述技术问题,本专利技术提供一种基于多种算法提升文件关键词准确度的识别方法,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。其中,其特征在于,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词。其中,其特征在于,所述分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。其中,其特征在于,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。其中,其特征在于,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。其中,其特征在于,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。其中,其特征在于,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。其中,其特征在于,所述2:3:4:3的权重比为默认配置。其中,其特征在于,所述权重比为按照具体应用场景自行配置。其中,所述原文本的格式包括WORD格式,PDF格式。(三)有益效果与现有技术相比较,本专利技术采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法,综合匹配判断,来提升关键词提取识别的准确性。对比各个算法对关键词命中次数,各个算法配置的权重比默认采用2:3:4:3计算识别结果,权重可以根据具体应用场景自行配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。通过该方式,在关键词检索
,通过基于多种算法提升文件关键词准确度的识别方法。附图说明图1为本专利技术技术方案的原理图。具体实施方式为使本专利技术的目的、内容、和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。为解决上述技术问题,本专利技术提供一种基于多种算法提升文件关键词准确度的识别方法,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的本文档来自技高网
...

【技术保护点】
1.一种基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。...

【技术特征摘要】
1.一种基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关...

【专利技术属性】
技术研发人员:张永静张彤郝佳高晓琼李世成郑春一李景田司敬徐海左晓辉
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1