This invention discloses a document classification method based on Hadoop data mining, which includes: A, preprocessing of data documents, determining key words and the corresponding relation between each keyword and its document; B, using the method of attribute feature conversion to describe the genera character of data in the document; C, using the matching rule from the key The word set generates its keyword vector, generates the concept vector according to the keyword vector and the data attribute feature set obtained by step B; D, calculates the similarity between any two text documents in the data document to be classified according to the keyword vector and the concept vector in step C; E, based on the attribute vector, the clustering processing is performed. The classification results of the described attribute vectors are obtained. The classification results indicate the classification of the target objects corresponding to each attribute vector; F and Hadoop automatically collect the above classification results and classify the classified data documents. The invention has obvious advantages of easy realization and high classification accuracy.
【技术实现步骤摘要】
一种基于hadoop数据挖掘的文档分类方法
本专利技术属于数据分类
,具体涉及一种基于hadoop数据挖掘的文档分类方法。
技术介绍
Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。随着互联网技术的高速发展,网络文档的数量正经历着爆炸式地增长。海量的文档为用户方便地获取文档提供了基础,同时也为获得可用的、用户期望的文档带来了巨大挑战。文档分类技术是一种高效地将文档进行归类的技术,该方法通过用户提交给分类装置的样例文档,将文档库中未被分类的文档快速、准确地进行分类。现有技术中的文档分类需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是系统很难承受的。
技术实现思路
本专利技术的目的在于提供一种基于hadoop数据挖掘的文档分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于hadoop数据挖掘的文档分类方法,包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性;并将该文档稳定的至少一个属性数 ...
【技术保护点】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。
【技术特征摘要】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。2.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法,其特征在于:所述步骤C中的匹配规则包括以下步骤:A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。