The invention belongs to the technical field of keyword retrieval, and specifically relates to a recognition method based on a variety of algorithms to improve the accuracy of keywords in documents. By comparing the number of keyword hits of each algorithm, the weight ratio of each algorithm configuration can be self-configurable or default configuration. The number of hits can be calculated according to the weight ratio of each algorithm, and as the final result. The algorithm includes the Chinese keyword extraction algorithm based on separation model, the Chinese keyword extraction algorithm based on high-dimensional clustering technology, the method of accurate recognition and extraction of keywords in files and folders, the Chinese text keyword extraction algorithm based on semantics, and the Chinese keyword extraction algorithm based on Naive Bayesian model. Through this method, in the field of keyword retrieval technology, the accuracy of document keyword recognition method is improved based on a variety of algorithms.
【技术实现步骤摘要】
基于多种算法提升文件关键词准确度的识别方法
本专利技术属于关键词检索
,具体涉及一种基于多种算法提升文件关键词准确度的识别方法。
技术介绍
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。关键词识别检索以统一策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。目前大多数的方案主要采用分离模型算法,对关键单词提取和关键词串提取。现有技术方案由于采用算法单一,而各种算法有各自的优势和特点,采用单一算法计算关键词无法规避该算法本身的弊端。因此,目前市面上采用的关键词识别技术准确性有待提升。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是:如何解决目前由于算法单一,无法结合多种扫描结果进行准确的综合分析的问题。(二)技术方案为解决上述技术问题,本专利技术提供一种基于多种算法提升文件关键词准确度的识别方法,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步 ...
【技术保护点】
1.一种基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块 ...
【技术特征摘要】
1.一种基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,所述识别方法包括如下步骤:步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关...
【专利技术属性】
技术研发人员:张永静,张彤,郝佳,高晓琼,李世成,郑春一,李景田,司敬,徐海,左晓辉,
申请(专利权)人:北京京航计算通讯研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。