一种基于MPI的ML‑KNN多标签中文文本分类方法技术

技术编号：15704882 阅读：167 留言：0更新日期：2017-06-26 10:13

本发明专利技术请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法，涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题，控制计算的时间和空间的开销，本发明专利技术采用的技术方案是，采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法，本发明专利技术极大的提高了多标签中文文本分类的效率。同时，在数据量一定的情况下，算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是，在基于MPI并行化ML‑KNN步骤中，对数据集进行划分时既可以以样本为单位划分，又可以以特征为单位划分，这使得本发明专利技术在处理高维文本数据的时候，具有更大的优势。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MPI的ML-KNN多标签中文文本分类方法
本专利技术涉及机器学习和高性能计算领域，具体涉及一种基于MPI编程并行化多标签分类算法ML-KNN。
技术介绍
近年来，信息技术迅猛发展，互联网数据规模随之呈海量增长，其表现形式也愈加丰富，然而传统的监督学习认为每个样本只有一个标签，对事物的复杂语义信息缺乏准确表述的能力，多标签学习(Multi-LabelLearning)应运而生。多标签学习认为单个样本存在多个标签与之关联，与多个标签关联的样本能够更好的表述。近年来，多标签学习问题受到了机器学习学术界和工业界越来越多的重视，已成为机器学习界的研究热点之一。ML-KNN(multi-labelkNearestNeighbor)是张敏灵和周志华提出的一种多标签分类算法，该算法是由经典的单标签学习算法KNN(kNearestNeighbor)改进而来的。ML-KNN首先求出待预测样本的k个最近邻类别标签出现的先验概率和后验概率，再基于最大化后验概率的原则去确定待预测样本的标签集。算法在文本分类、生物信息学、信息检索、网页挖掘等诸多领域表现出了良好的效果。设Ξ为特征空...
一种<a href="http://www.xjishu.com/zhuanli/55/201710026254.html" title="一种基于MPI的ML‑KNN多标签中文文本分类方法原文来自X技术">基于MPI的ML‑KNN多标签中文文本分类方法</a>

【技术保护点】
一种基于MPI的ML‑KNN多标签中文文本分类方法，其特征在于，包括以下步骤：1)对训练集和待预测数据集中的所有文本进行预处理，包括分词，去停用词及去低频词在内的步骤；2)对预处理后的训练集进行特征词汇提取得到特征词汇表，再根据特征词汇表对训练集和待预测数据集作文本矢量化表示；3)构造分类器并分类:首先基于并行编程模型MPI将ML‑KNN算法并行，然后使用训练集对并行后的ML‑KNN分类器进行训练，最后使用训练好的ML‑KNN分类器对待预测文本数据集进行分类，得到待预测文本数据集分类结果。

【技术特征摘要】
1.一种基于MPI的ML-KNN多标签中文文本分类方法，其特征在于，包括以下步骤：1)对训练集和待预测数据集中的所有文本进行预处理，包括分词，去停用词及去低频词在内的步骤；2)对预处理后的训练集进行特征词汇提取得到特征词汇表，再根据特征词汇表对训练集和待预测数据集作文本矢量化表示；3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行，然后使用训练集对并行后的ML-KNN分类器进行训练，最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类，得到待预测文本数据集分类结果。2.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法，其特征在于，所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程；去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇；去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词，这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。3.根据权利要求1或2所述的基于MPI的ML-KNN多标签中文文本分类方法，其特征在于，步骤2)特征的提取只针对训练集，具体做法是将预处理后的训练集进行词频统计，将在训练集中出现次数大于设定阈值T的单词加入特征词汇表，并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF，将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程，再在各个进程中求出与该进程相对应文档中单词的TF-IDF值，实现文档的向量化表示。4.根据权利要求3所述的基于MPI的ML-KNN...

【专利技术属性】
技术研发人员：王进，晏世凯，邵帅，李颖，欧阳卫华，胡峰，李智星，邓欣，陈乔松，雷大江，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人