一种基于hadoop数据挖掘的文档分类方法技术

技术编号：18426528 阅读：25 留言：0更新日期：2018-07-12 02:02

本发明专利技术公开了一种基于hadoop数据挖掘的文档分类方法，包括：A、对数据文档进行预处理，确定关键词以及每个关键词与其所属文档的对应关系；B、采用属性特征转换的方法描述文档中数据的属性特征；C、采用匹配规则从关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；D、根据步骤C中的关键词向量和概念向量计算待分类数据文档中任意两个文本文档之间的相似性；E、针对属性向量执行基于聚类处理的分类操作，获得所述属性向量的分类结果，分类结果指示每个属性向量所对应的目标对象的分类；F、Hadoop自动收集上述分类结果，对待分类数据文档进行分类。本发明专利技术具有易于实现、分类准确度高的显著优点。

A method of document classification based on Hadoop data mining

This invention discloses a document classification method based on Hadoop data mining, which includes: A, preprocessing of data documents, determining key words and the corresponding relation between each keyword and its document; B, using the method of attribute feature conversion to describe the genera character of data in the document; C, using the matching rule from the key The word set generates its keyword vector, generates the concept vector according to the keyword vector and the data attribute feature set obtained by step B; D, calculates the similarity between any two text documents in the data document to be classified according to the keyword vector and the concept vector in step C; E, based on the attribute vector, the clustering processing is performed. The classification results of the described attribute vectors are obtained. The classification results indicate the classification of the target objects corresponding to each attribute vector; F and Hadoop automatically collect the above classification results and classify the classified data documents. The invention has obvious advantages of easy realization and high classification accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于hadoop数据挖掘的文档分类方法
本专利技术属于数据分类
，具体涉及一种基于hadoop数据挖掘的文档分类方法。
技术介绍
Hadoop实现了一个分布式文件系统，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。随着互联网技术的高速发展，网络文档的数量正经历着爆炸式地增长。海量的文档为用户方便地获取文档提供了基础，同时也为获得可用的、用户期望的文档带来了巨大挑战。文档分类技术是一种高效地将文档进行归类的技术，该方法通过用户提交给分类装置的样例文档，将文档库中未被分类的文档快速、准确地进行分类。现有技术中的文档分类需要进行非常巨大的文本相似性匹配计算，耗费的时间和空间都是系统很难承受的。
技术实现思路
本专利技术的目的在于提供一种基于hadoop数据挖掘的文档分类方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于hadoop数据挖掘的文档分类方法,包括以下步骤：A、对数据文档进行预处理，并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系；B、采用属性特征转换的方法描述文档中数据的属性特征；C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；D、根据步骤C中的关键词向量和概念向量，计算待分类数据文档中任意两个文本文档之间的相似性；并将该文档稳定的至少一个属性数...

【技术保护点】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于：包括以下步骤：A、对数据文档进行预处理，并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系；B、采用属性特征转换的方法描述文档中数据的属性特征；C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；D、根据步骤C中的关键词向量和概念向量，计算待分类数据文档中任意两个文本文档之间的相似性，并将该文档稳定的至少一个属性数据的值标识为属性向量；E、针对步骤D中属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，分类结果指示每个属性向量所对应的目标对象的分类；F、利用Hadoop自动收集步骤F中属性向量的分类结果，对待分类数据文档进行分类。

【技术特征摘要】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于：包括以下步骤：A、对数据文档进行预处理，并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系；B、采用属性特征转换的方法描述文档中数据的属性特征；C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；D、根据步骤C中的关键词向量和概念向量，计算待分类数据文档中任意两个文本文档之间的相似性，并将该文档稳定的至少一个属性数据的值标识为属性向量；E、针对步骤D中属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，分类结果指示每个属性向量所对应的目标对象的分类；F、利用Hadoop自动收集步骤F中属性向量的分类结果，对待分类数据文档进行分类。2.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法，其特征在于：所述步骤C中的匹配规则包括以下步骤：A、获取匹配条件，匹配条件包括以下一种或多种匹配信息：一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算；B、利用匹配条件生成匹配树，匹配树记录有所述查询属性值、所述查询属性在原...

【专利技术属性】
技术研发人员：王海勇，窦敏，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人