本发明专利技术请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明专利技术采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明专利技术极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明专利技术在处理高维文本数据的时候,具有更大的优势。
【技术实现步骤摘要】
一种基于MPI的ML-KNN多标签中文文本分类方法
本专利技术涉及机器学习和高性能计算领域,具体涉及一种基于MPI编程并行化多标签分类算法ML-KNN。
技术介绍
近年来,信息技术迅猛发展,互联网数据规模随之呈海量增长,其表现形式也愈加丰富,然而传统的监督学习认为每个样本只有一个标签,对事物的复杂语义信息缺乏准确表述的能力,多标签学习(Multi-LabelLearning)应运而生。多标签学习认为单个样本存在多个标签与之关联,与多个标签关联的样本能够更好的表述。近年来,多标签学习问题受到了机器学习学术界和工业界越来越多的重视,已成为机器学习界的研究热点之一。ML-KNN(multi-labelkNearestNeighbor)是张敏灵和周志华提出的一种多标签分类算法,该算法是由经典的单标签学习算法KNN(kNearestNeighbor)改进而来的。ML-KNN首先求出待预测样本的k个最近邻类别标签出现的先验概率和后验概率,再基于最大化后验概率的原则去确定待预测样本的标签集。算法在文本分类、生物信息学、信息检索、网页挖掘等诸多领域表现出了良好的效果。设Ξ为特征空间,Ψ是有限个标签的集合。对于任一样本x(x∈Ξ),其标签的集合为样本x的类别向量,向量中的元素为(l∈Ψ),若l∈Y,则的值为1,否则为0。此外,定义N(x)为样本x在训练集中的K近邻的集合,其中样本之间相似度用欧氏距离度量,则成员统计向量被定义为:用于统计在样本x的K近邻中标签为l的样本的个数。对于测试样本t,表示事件:样本t含有标签l;则表示事件:样本t不含标签l;表示事件:在样本t的K近邻中,恰好有j个样本含有标签l。利用最大化后验概率准则(MaximumaPosteriori,MAP),测试样本t的标签向量为:通过贝叶斯公式,上式可转换为:是成立的先验概率,通过统计训练集中与标签l相关的样本数量得到;表示当成立时,测试样本t的K近邻中有个样本含有标签l的概率。2.多标签文本分类Internet上存在的海量数据主要包括文本、声音、图像数据等。其中,文本数据与其他数据相比,具有占用网络资源小的特点,这使得网上的数据大多是以文本的形式呈现的。为了有效的管理和利用这些文本数据,从中发现有价值的信息,基于内容的信息检索和数据挖掘技术倍受关注。而文本分类技术是信息检索的基础,其主要任务是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类最初是应信息检索的需求而出现的,早期以人工构建分类器为主,经过几十年的发展,基于机器学习的文本分类技术成为了主流,该方法包涵文本预处理,特征选择,分类器的构建三个步骤,实现了文本的自动分类。在互联网广泛使用的今天,网络信息快速膨胀,基于机器学习的文本分类技术已成为信息检索与数据挖掘领域的核心技术。文本分类可根据分类后类标签的个数分为单标签文本分类和多标签文本分类。区别于多类别文本分类,多标签文本分类是指单个文本具有两个及其以上的标签与之关联。在现实世界中,多标签文本分类是相当普遍的,比如,一篇新闻报道可能包含里约奥运会、女排、决赛等多个主题。3.MPIMPI(MessagePassingInterface,消息传递接口)是由MPI论坛(MPIForum)提出的一种消息传递编程模型,并成为这种编程模型的代表和事实上的标准,具有高效率,方便移植,功能强大等特点。MPI是一个库,而不是一门独立的编程语言,可以被FORTRAN和C/C++调用,其适用于共享和分布式存储的并行计算环境,用它编写的程序可以直接在SMP(SymmetricMulti-Processor,对称式多处理器)集群上运行。本专利技术旨在解决ML-KNN的具体实现中大规模分类问题,控制计算的时间和空间代价。鉴于VSM仍是文本表示的主要方法,导致样本的特征空间维度较高,在大规模分类问题中具有一定的特殊性。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种在处理高维数据的时候的中文文本分类方法。本专利技术的技术方案如下:一种基于MPI的ML-KNN多标签中文文本分类方法,其包括以下步骤:1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行,然后使用训练集对并行后的ML-KNN分类器进行训练,最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果。进一步的,所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇,;去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。进一步的,步骤2)特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于设定阈值T的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化表示。进一步的,步骤4)将ML-KNN分类器并行化的步骤包括:首先将训练数据集以特征为单位均匀划分成p个特征数据列,再将每个特征数据列均与划分成q个特征数据子集,则原数据集被划分成了p*q个特征数据子集;将划分好的特征数据子集通过MPI_Send函数传入p*q个进程中,各个进程通过MPI_Recv函数接收,每个进程有且只有一个特征数子集,数据子集进行距离运算,再进行训练集特征矩阵的划分,得到近邻矩阵N(xj);将由人工标记的训练集标签信息传入进程0,在进程0中计算先验概率同时利用得到的近邻矩阵N(xj)计算出后验概率进而求出测试样本t对于标签l的概率Pt,l(b)以及t是否含有标签l。进一步的,所述距离公式使用的距离公式为:dist(a,b)=a*b+b2其中a为当前样本的特征向量,b为目标样本的特征向量,dist(a,b)表示当前样本到其他目标样本的距离,计算过程中需要用到的其他特征数据子集通过调用广播函数MPI_Bcast传入。进一步的,在进行广播前,需调用MPI_Comm_split函数将原始通信域划分成q个独立的通信域,即每个特征数据列所对应的进程为一个独立的通信域,然后将计算好的包括样本编号,特征名称信息,与近邻样本的距离信息在内的结果通过MPI_Gatherv函数收集到进程0,在进程0中通过加法运算即得到ML-KNN算法中所需的近邻矩阵N(xj)。本专利技术的优点及有益效果如下:本专利技术基于并行编程模型MPI将多标签文本数据的预处理、特征提取以及ML-KNN算法分类三个过程并行化,相比传统的串行方法,极大的提高了效率。值得一提的是,在数据的划分方面,相比其他并行方案的只以样本为单位划分,提出了一种新的针对文本数据的划分方法,即既可以以样本为单位划分,又可以以特征为单位划分,使得本专利技术在处理高维数据的时候,具本文档来自技高网...

【技术保护点】
一种基于MPI的ML‑KNN多标签中文文本分类方法,其特征在于,包括以下步骤:1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;3)构造分类器并分类:首先基于并行编程模型MPI将ML‑KNN算法并行,然后使用训练集对并行后的ML‑KNN分类器进行训练,最后使用训练好的ML‑KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果。
【技术特征摘要】
1.一种基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,包括以下步骤:1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行,然后使用训练集对并行后的ML-KNN分类器进行训练,最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果。2.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇;去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。3.根据权利要求1或2所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,步骤2)特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于设定阈值T的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化表示。4.根据权利要求3所述的基于MPI的ML-KNN...
【专利技术属性】
技术研发人员:王进,晏世凯,邵帅,李颖,欧阳卫华,胡峰,李智星,邓欣,陈乔松,雷大江,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。