【技术实现步骤摘要】
本专利技术涉及一种计算机文档分类方法,具体说,涉及一种。
技术介绍
自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指用计算机将一篇文章归于预先给定的某一类或某些类的过程。对文本进行准确、高效的分类是许多数据管理任务的重要组成部分,是文本挖掘的一个重要内容。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。向量空间模型是一个应用于信息过滤、信息撷取、索引以及评估相关性的代数模型。在该模型中,文档被表示为由关键词形成的向量空间,通过计算两个向量之间的相似性来可以来计算文档的相似性。在文本分类中,通过计算待分类文档与各个类别的中心向量的相似性,与待分文本 ...
【技术保护点】
一种多策略结合文档自动分类方法,包括:对于给定的待分类文档,对其进行关键词提取,按照关键词获取待分类文档向量,获取标准文档库中每个类的类中心向量;根据所述类中心向量获取已分类文档的类阀值;将待分类文档向量与类中心的相似度同所述类阀值进行比较,当待分类文档向量与类中心的相似度大于等于所述类阀值时,采用向量空间法对待分类文档进行分类;否则,使用KNN方法对所述待分类文档进行分类。
【技术特征摘要】
1.一种多策略结合文档自动分类方法,包括: 对于给定的待分类文档,对其进行关键词提取,按照关键词获取待分类文档向量,获取标准文档库中每个类的类中心向量; 根据所述类中心向量获取已分类文档的类阀值; 将待分类文档向量与类中心的相似度同所述类阀值进行比较,当待分类文档向量与类中心的相似度大于等于所述类阀值时,采用向量空间法对待分类文档进行分类;否则,使用KNN方法对所述待分类文档进行分类。2.按权利要求1所述的多策略结合文档自动分类方法,其特征在于,所述类中心向量的获取步骤包括: 设标准文档库中有m个预定义分类,用C=I...
【专利技术属性】
技术研发人员:江潮,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。