一种基于MPI和Adaboost.MH的中文文本分类方法技术

技术编号：16079984 阅读：37 留言：0更新日期：2017-08-25 15:30

本发明专利技术公开了一种基于MPI和Adaboost.MH的中文文本分类方法，用于解决当数据量较大时，Adaboost.MH训练时间较长因而导致总的中文文本分类时间较长的问题。该方法包括：将经过分词处理的中文文本保存到训练数据集，然后将互信息方法与MPI相结合，实现特征词选择，然后所有进程通过MPI中的MPI_Reduce函数进行归约求和进而求得相似度，根据相似度的大小选择特征词。接着每个进程根据其所包含的中文文本中选择的特征词是否存在来给特征词赋予权值。然后根据MPI的通信函数将进程计算结果进行整合得到文本分类模型，利用分类模型对待分类的中文文本分类。本发明专利技术极大地缩短了对中文文本进行分类的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MPI和Adaboost.MH的中文文本分类方法
本专利技术涉及文本挖掘
，特别涉及一种基于MPI和adaboost.MH的中文文本分类方法。
技术介绍
文本分类是在文本的类别体系已知的情况下，根据信息内容将文本划分到与其相关的类别中去的过程。随着科学技术的进步、社会的发展、计算机的普及和网络时代的来临，网络文本的数量在急剧增长中，文本分类任务呈现了新的特点：一、每天都会产生大量的需要进行分类的新文本，这些数据通常是TB级以上。二、文本的类别呈现出多样性，即一个文本可以属于多种类别，比如同一文本既可以属于历史，又可以属于政治，还可以属于科技等。传统的单标签分类方法如决策树方法、k近邻方法、神经网络方法、遗传算法、贝叶斯分类、支持向量机等已经不能满足人们的需要。因此现今出现了许多多标签分类方法，主要有BR、ECC、Adaboost.MH、MLKNN、CML、ML-DT、rank-Svm等。Adaboost.MH算法是一种对单标签分类算法Adaboost的改进处理多标签的迭代算法,其核心思想是对同一个训练集训练不同的弱分类器，然后将这些弱分类器结合起来构成一个强分类器。本文中Adaboost.MH算法选择的弱分类器是一级决策树，该算法思想简单、易于实现。但由于现在需要分类的文本数量太大，Adaboost.MH算法为了保证分类效果需要进行多次的迭代学习，因此需要大量的训练时间。为了提高Adaboost.MH算法的效率，减少训练时间，现有的解决方法主要是对算法进行并行实现。并行的方法主要有openmp、hadoop、spark、MPI。其中openm...
一种基于MPI和Adaboost.MH的中文文本分类方法

【技术保护点】
一种基于MPI和Adaboost.MH的中文文本分类方法，包括以下步骤：(1)文本预处理：搜集不同领域的中文文本文件，对搜集到的中文文本进行中文分词，然后将标点符号及停用词去除，将分词后的词条用空格符分隔保存到训练集数据中，作为初步特征；(2)特征词选择：通过使用互信息方法对预处理文本的初步特征进行选择；(3)构建权值向量：对每个进程的每一篇中文文本文件，扫描判断挑选的特征词是否在该中文文本文件中，如果文件中存在该特征词，这该特征词对应的权值为1，否则该特征词对应的权值为0，构建中文文本文件权值向量；(4)构建文本分类模型：利用Adaboost.MH算法构建分类模型；(5)对待分类文本进行分类：根据步骤(4)构建的分类模型对待分类文本进行分类。

【技术特征摘要】
1.一种基于MPI和Adaboost.MH的中文文本分类方法，包括以下步骤：(1)文本预处理：搜集不同领域的中文文本文件，对搜集到的中文文本进行中文分词，然后将标点符号及停用词去除，将分词后的词条用空格符分隔保存到训练集数据中，作为初步特征；(2)特征词选择：通过使用互信息方法对预处理文本的初步特征进行选择；(3)构建权值向量：对每个进程的每一篇中文文本文件，扫描判断挑选的特征词是否在该中文文本文件中，如果文件中存在该特征词，这该特征词对应的权值为1，否则该特征词对应的权值为0，构建中文文本文件权值向量；(4)构建文本分类模型：利用Adaboost.MH算法构建分类模型；(5)对待分类文本进行分类：根据步骤(4)构建的分类模型对待分类文本进行分类。2.根据权利要求1所述一种基于MPI和Adaboost.MH的中文文本分类方法，其特征在于：步骤(2)所述特征词选择的具体步骤为：首先将训练集数据平均分为p份，每个进程依次读取其中的一份；然后分别统计各进程的A、B、C、N值，A为在类别c中特征词t出现的中文文本分数；B为在除了类别c的其他类别中特征词t出现的中文文本分数；C为在类别c中特征词t未出现的中文文本分数；N为所有类别中中文文本分数的总和；接着所有进程通过MPI中的MPI_Reduce函数对A、B、C、N进行归约求和，结果保存到进程0中，进程0根据归约求和的结果计算特征词t和类别c之间的相似度I；最后通过快速排序算法对特征词的相似度I进行排序，将相似度I较大的n个特征词保留，并将选择的结果广播给所有的进程，所有进程根据收到的广播信息挑选特征词。3.根据权利要求2所述一种基于MPI和Adaboost.MH的中文文本分类方法，其特征在于：所述相似度I的计算公式为：4.根据权利要求1所述一种基于MPI和Adaboost.MH的中文文本分类方法，其特征在于：所述分类模型的构建过...

【专利技术属性】
技术研发人员：王进，高延雨，李颖，李航，余薇，高选人，邓欣，陈乔松，胡峰，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人