一种基于hadoop数据挖掘的文档分类方法技术

技术编号:18426528 阅读:25 留言:0更新日期:2018-07-12 02:02
本发明专利技术公开了一种基于hadoop数据挖掘的文档分类方法,包括:A、对数据文档进行预处理,确定关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量计算待分类数据文档中任意两个文本文档之间的相似性;E、针对属性向量执行基于聚类处理的分类操作,获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、Hadoop自动收集上述分类结果,对待分类数据文档进行分类。本发明专利技术具有易于实现、分类准确度高的显著优点。

A method of document classification based on Hadoop data mining

This invention discloses a document classification method based on Hadoop data mining, which includes: A, preprocessing of data documents, determining key words and the corresponding relation between each keyword and its document; B, using the method of attribute feature conversion to describe the genera character of data in the document; C, using the matching rule from the key The word set generates its keyword vector, generates the concept vector according to the keyword vector and the data attribute feature set obtained by step B; D, calculates the similarity between any two text documents in the data document to be classified according to the keyword vector and the concept vector in step C; E, based on the attribute vector, the clustering processing is performed. The classification results of the described attribute vectors are obtained. The classification results indicate the classification of the target objects corresponding to each attribute vector; F and Hadoop automatically collect the above classification results and classify the classified data documents. The invention has obvious advantages of easy realization and high classification accuracy.

【技术实现步骤摘要】
一种基于hadoop数据挖掘的文档分类方法
本专利技术属于数据分类
,具体涉及一种基于hadoop数据挖掘的文档分类方法。
技术介绍
Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。随着互联网技术的高速发展,网络文档的数量正经历着爆炸式地增长。海量的文档为用户方便地获取文档提供了基础,同时也为获得可用的、用户期望的文档带来了巨大挑战。文档分类技术是一种高效地将文档进行归类的技术,该方法通过用户提交给分类装置的样例文档,将文档库中未被分类的文档快速、准确地进行分类。现有技术中的文档分类需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是系统很难承受的。
技术实现思路
本专利技术的目的在于提供一种基于hadoop数据挖掘的文档分类方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于hadoop数据挖掘的文档分类方法,包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性;并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。优选的,所述步骤C中匹配规则中的匹配方法包括以下步骤:A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算;C、对原始数据中关键字进行哈希处理,获得待查找关键字的哈希索引值;根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容;D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。优选的,所述步骤E中聚类处理的分类操作包括以下步骤:A、读取属性向量数据,并获取处理数据的多个预设聚类中心;B、根据多个预设聚类中心,对处理数据进行分类,得到分类后处理数据;C、根据分类后处理数据,建立多个可合并的计算任务;D、使用多个计算线程对所述可合并的计算任务进行计算,并对计算结果进行合并操作;E、根据合并后的计算结果对预设聚类中心进行修正以及保存;以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数,确定数据聚类处理结果。优选的,所述步骤D中,计算处理时,计算机首先对待处理数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象。与现有技术相比,本专利技术的有益效果是:1,本专利技术采用的分类方法易于实现,且分类准确度高,其中,采用的匹配方法能够对数据进行数据过滤、查询或匹配;2,可以根据匹配条件自动生成用于匹配数据的匹配树,因此能解决查询需求多样性的问题,能实现灵活的数据匹配或过滤;3,采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性,而且数据概况分析能力强,适于海量数据的快速聚类处理,进一步提高了数据文档分类的精确性。附图说明图1为本专利技术整体分类流程图;图2为本专利技术匹配方法流程图;图3为本专利技术聚类处理的分类操作流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于hadoop数据挖掘的文档分类方法,包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性;并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。如图2所示,本专利技术中,步骤C中匹配规则中的匹配方法包括以下步骤:A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算;C、对原始数据中关键字进行哈希处理,获得待查找关键字的哈希索引值;根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容;D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。匹配方法能够对数据进行数据过滤、查询或匹配。对原始数据,可以根据匹配条件获取匹配信息,并自动生成匹配树,由于匹配树中携带有匹配信息,因此可以利用匹配树在原始数据中查找出与匹配条件匹配的数据。如图3所示,本专利技术中,步骤E中聚类处理的分类操作包括以下步骤:A、读取属性向量数据,并获取处理数据的多个预设聚类中心;B、根据多个预设聚类中心,对处理数据进行分类,得到分类后处理数据;C、根据分类后处理数据,建立多个可合并的计算任务;D、使用多个计算线程对所述可合并的计算任务进行计算,并对计算结果进行合并操作;E、根据合并后的计算结果对预设聚类中心进行修正以及保存;以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数,确定数据聚类处理结果。其中,步骤D中,计算处理时,计算机首先对待处理数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象。本专利技术采用的分类方法易于实现,且分类准确度高;其中,采用的匹配方法能够对数据进行数据过滤、查询或匹配;可以根据匹配条件自动生成用于匹配数据的匹配树,因此能解决查询需求多样性的问题,能实现灵活的数据匹配或过滤;采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性,而且数据概况分析能力强,适于海量数据的快速聚类处理,进一步提高了数据文档分类的精确性。尽管已经示出和描述本文档来自技高网...

【技术保护点】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。

【技术特征摘要】
1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。2.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法,其特征在于:所述步骤C中的匹配规则包括以下步骤:A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原...

【专利技术属性】
技术研发人员:王海勇窦敏
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1