一种文档分类方法和系统技术方案

技术编号:10804799 阅读:68 留言:0更新日期:2014-12-24 11:48
本发明专利技术公开了一种文档分类方法和系统,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。本发明专利技术充分利用了Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类的效率,提高了系统性能。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种文档分类方法和系统,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。本专利技术充分利用了Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类的效率,提高了系统性能。【专利说明】一种文档分类方法和系统
本专利技术涉及计算机
,具体涉及一种文档分类方法和系统。
技术介绍
随着网络技术的日益普及,网络中的数据量急剧增加,应用类型也非常丰富。数据挖掘技术充分利用现有信息资源,从大量数据中找出隐藏的知识,是一个强有力的发展方向。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、数据可视化和高性能计算等领域,其目的在于从大量数据中发现隐含的、新颖的、令人感兴趣的关系和规律。其中,文档分类是数据挖掘的一个重要方向。 现有技术中,通常使用传统的系统框架进行文档分类,在处理海量数据时,会导致分类时间长,系统性能低下。
技术实现思路
本专利技术提供了一种文档分类方法和系统,以解决现有技术中系统性能低下的缺陷。 本专利技术提供了一种文档分类方法,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤: 所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分; 所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器; 所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。 可选地,所述Map程序根据解析结果确定特征属性之后,还包括: 所述Map程序根据所述特征属性,分别对所述训练文档和所述待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档; 所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器,具体为: 所述Map程序根据格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器; 所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果,具体为: 所述Reduce程序使用所述分类器对格式转换后的待分类文档进行分类,得到待分类文档的分类结果。 可选地,所述Map程序根据格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器,具体为: 所述Map程序根据所述格式转换后的训练文档对应的各个特征属性的取值范围以及对所述训练文档的分类结果,计算每个类别在所述训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,将所述出现频率和所述条件概率估计记录为分类器。 可选地,所述Reduce程序使用所述分类器对格式转换后的待分类文档进行分类,得到待分类文档的分类结果,具体为: 所述Reduce程序获取所述格式转换后的待分类文档的所有特征属性的取值范围,根据获取到的取值范围、每个类别在训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,计算所述待分类文档归属于各个类别的条件概率,并将数值最大的条件概率对应的类别作为所述待分类文档的分类结果。 可选地,所述Map程序所述对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分,具体为: 所述Map程序通过对训练文档和待分类文档进行解析,得到训练文档和待分类文档包含的属性,并从解析得到的属性中选取特征属性,并针对每个特征属性划分多个取值范围。 本专利技术还提供了一种文档分类系统,应用于Hadoop集群中,所述系统包括: 解析模块,用于对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分; 生成模块,用于根据所述解析模块确定的所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器; 分类模块,用于使用所述生成模块生成的所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。 可选地,所述的系统,还包括: 转换模块,用于根据所述解析模块确定的所述特征属性,分别对所述训练文档和所述待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档; 所述生成模块,具体用于根据所述转换模块格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器; 所述分类模块,具体用于使用所述生成模块生成的所述分类器对所述转换模块格式转换后的待分类文档进行分类,得到待分类文档的分类结果。 可选地,所述生成模块,具体用于根据所述转换模块格式转换后的训练文档对应的各个特征属性的取值范围以及对所述训练文档的分类结果,计算每个类别在所述训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,将所述出现频率和所述条件概率估计记录为分类器。 可选地,所述分类模块,具体用于获取所述转换模块格式转换后的待分类文档的所有特征属性的取值范围,根据获取到的取值范围、每个类别在训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,计算所述待分类文档归属于各个类别的条件概率,并将数值最大的条件概率对应的类别作为所述待分类文档的分类结果。 可选地,所述解析模块,具体用于通过对训练文档和待分类文档进行解析,得到训练文档和待分类文档包含的属性,并从解析得到的属性中选取特征属性,并针对每个特征属性划分多个取值范围。 本专利技术充分利用了 Hadoop集群的分布式特点,避免了传统系统框架的局限性,具有并行快速的特点,能够快速实现对海量文档的分类,节省了分类时间,提高了文档分类的效率,提闻了系统性能。 【专利附图】【附图说明】 图1为本专利技术实施例中一种文档分类方法的流程图; 图2为本专利技术实施例中一种文档分类系统的结构示意图。 【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 需要说明的是,如果不冲突,本专利技术实施例以及实施例中的各个特征可以相互结合,均在本专利技术的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。 本专利技术实施例中提出了一种文档分类方法,应用于包括Map程序和Reduce程序的Hadoop集群中,在使用Hadoop命令将训练文档和待分类文档放置到HDFS (HadoopDistributed File System,分布式文件系统)上之后,执行如图1所示的操作: 步骤101,Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对特征属性进行本文档来自技高网...

【技术保护点】
一种文档分类方法,其特征在于,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:宗栋瑞郭美思吴楠
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1