基于分布式机器学习的文本分类方法技术

技术编号:35571051 阅读:16 留言:0更新日期:2022-11-12 15:55
本发明专利技术公开了一种基于分布式机器学习的文本分类方法,包括:S1、输入数据集并进行预处理;S2、将数据集进行分块,并提出Word2Vec的分布式文本数据流分类方法;S3、训练Word2Vec模型,将单词表示为在连续空间上的低维稠密向量形式,生成词向量,并自定义权重矩阵;S4、主节点将分类器权重广播到子节点,数据流通过分布式文件管理系统将数据块分发至子节点,主节点轮询等待子节点对数据块的处理结果,以获取权重梯度之和,更新后处理下一个数据块;S5、初始化CNN参数,输入至卷积神经网络进行并行化训练,在Spark平台下构建基于分布式机器学习的文本分类模型。本发明专利技术通过Apache Spark框架的适应性来探索卷积神经网络,充分利用Spark框架的并行优势,提高了文本分类的精度。提高了文本分类的精度。提高了文本分类的精度。

【技术实现步骤摘要】
基于分布式机器学习的文本分类方法


[0001]本专利技术涉及一种基于分布式机器学习的文本分类方法,属于文本分类处理


技术介绍

[0002]目前,随着信息时代的发展,互联网上的文本数据呈现爆发式的增长。海量的数据未经过分类,人们无法高效地对其提取有用的信息,同时也浪费了网络资源。文本分类作为文本处理重要的技术之一,被广泛地用于各项自然语言处理任务当中。文本分类即是通过特定的算法,分析文本数据中的潜在规则,再将新的文本和对应的类别相匹配。
[0003]长久以来,文本分类的主流方法还是基于统计的机器学习模型,该模型通常采用词袋(bag

of

words)和n元语法(n

gram)等表示方法将文档转化成一个N维向量,然后将该向量输入到支持向量机(Support Vector Machine)、朴素贝叶斯(Naive Bayes)等分类器中,预测文档的标签,基于统计的机器学习模型结构简单,鲁棒性好,但也存在大量问题,比如最重要的统计的文本表示方法的文本语义表示方面是比较浅显的,需要进一步提取文本向量的深层特征,这个过程需要人工进行设计、添加和组合。并且研究者在构建文本特征表示的过程中,由于经验和对问题理解的不同,对不同文本词与词、句子与句子、上下文之间关联性的理解均不相同,所构建的文本特征表示,不能代表文本的核心语义,简单的机器学习模型分类器无法从中解析出文本语义信息。
[0004]2006年Hinton等研究人员发现了深度学习强大的表达能力,可以从文档中提取句子级别和词级别的特征信息,通过构建深层神经网络的方式解决了传统机器学习难以解决的语义提取的问题。随着深度学习成为研究的热门,目前利用深度学习框架开展的有关自然语言处理的研究和应用已经取得了一定的成果。
[0005]2014年,Kim基于卷积神经网络(Convolutional Neural Networks,CNN)展开了对文本分类的研究,包括情感分析,语义分析等。Kim提出的文本分类模型Textcnn包含一个卷积层(使用了多个不同尺寸的卷积核)和最大池化层,因为其结构简单,效果良好,被广泛的应用在NLP领域中。该方法能够有效的对长度较短的文本进行分类,但是对于文本长度超过5000字甚至更多的长文,单层的CNN不能完整的提取长文特征。
[0006]Robert Keeling等人将Textcnn运用于法律文本分类,实验表明,当文本长度超过2000字时,与传统神经网络相比,Textcnn的分类准确率没有显著提高。因为CNN只能处理其一个卷积核中的信息,而相邻卷积核的信息只能通过后一层的卷积层进行关联。信息的关联取决于卷积核的大小和移动步长等参数,因此,利用CNN进行长文本分类时,模型不能灵活调整参数,导致训练时间延长。
[0007]相比于CNN,循环神经网络(Recurrent Neural Network,RNN)使用时间序列的结构遍历文字,不仅会考虑文字本身,还会考虑文字上下文的信息,从而达到更好的文本分类效果。循环神经网络中的长短期记忆网络(Long Short

Term Memory,LSTM),其特殊的门结构允许信息选择性地影响神经网络每个时刻的状态,解决了传统序列模型由于记忆信息太
多产生的维度爆炸问题。Pengfei Liu等人提出的Textrnn模型和Miwa M等人提出的LSTMs端对端文本训练模型能够持续保留信息,记忆文本前后关联性,更好地利用了传统神经网络无法建模的信息。但文本长度超过万字时,序列模型记忆量不断增大,输入数据维度的不断扩大,容易引起资源耗尽,导致训练缓慢,模型分类准确度下降。
[0008]有鉴于此,确有必要提出一种基于分布式机器学习的文本分类方法,以解决上述问题。

技术实现思路

[0009]本专利技术的目的在于提供一种基于分布式机器学习的文本分类方法,以解决现有文本分类模型在文本长度过长时,出现的训练缓慢和准确率低的问题。
[0010]为实现上述目的,本专利技术提供一种基于分布式机器学习的文本分类方法,包括以下步骤:
[0011]S1、输入数据集,并对数据集进行预处理;
[0012]S2、将数据集进行分块,并提出一种基于Word2Vec的分布式文本数据流分类方法;
[0013]S3、训练Word2Vec模型,将单词表示为在连续空间上的低维稠密向量形式,生成词向量,并自定义权重矩阵;
[0014]S4、在一个主节点和三个子节点构成的标准集群中,主节点将分类器权重广播到所述子节点,数据流通过分布式文件管理系统将所述数据块分发至所述子节点,主节点轮询等待所述子节点对数据块的处理结果,随后获取每个子节点处理的权重梯度之和,更新主节点,随后处理下一个数据块,直至数据流结束;
[0015]S5、初始化CNN参数,输入至卷积神经网络进行并行化训练,在Spark平台下构建基于分布式机器学习的文本分类模型,以对文本进行分类。
[0016]作为本专利技术的进一步改进,S1包括以下步骤:
[0017]S11、使用分词系统对数据集进行分词;所述分词系统包括结巴(Jieba)分词系统、Han LP分词系统、清华中文词法分析和THULAC分词系统;
[0018]S12、使用停用词表对数据集进行去停用词;常见的停用词表包括哈工大停用词表和百度停用词表。
[0019]作为本专利技术的进一步改进,S2包括以下步骤:
[0020]S21、按定长的时间窗口机制,将给定的数据流分为固定大小的数据块;
[0021]S22、为了缓解短文本数据流中的稀疏信息和高维特征,利用外部语料库建立扩展Word2vec模型,采用固定大小的N维词向量Vec对短文本进行向量表示;
[0022]S23、对t时刻数据流中数据块D
t
使用词向量集合完成向量化,获得向量化表示Vec(D
t
),然后在Vec(D
t
)上进行模型的训练,并对下一个数据块D
t+1
进行预测;
[0023]S24、对文本进行预测。
[0024]作为本专利技术的进一步改进,S24具体为:以t时刻的数据块D
t+1
中的短文本为例,通过以下公式预测向量化的文本:
[0025][0026]其中,为预测标签;为算法集成模型F
t
在第t时刻中第r个分类器的特征权重,σ(
·
)表示为对应激活函数;最后使用文本上下文信息更新扩展Word2vec词向量集合VecE。
[0027]作为本专利技术的进一步改进,S3包括以下步骤:
[0028]S31、Word2vec根据语料中词汇共现信息,将词汇编码成一个向量,以计算每个词语在给定语料库环境下的分布式词向量;
[0029]S32、通过扩展Word2vec模型对短文本的向量化。
[0030]作为本专利技术的进一步改进,S4包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式机器学习的文本分类方法,其特征在于,包括以下步骤:S1、输入数据集,并对数据集进行预处理;S2、将数据集进行分块,并提出一种基于Word2Vec的分布式文本数据流分类方法;S3、训练Word2Vec模型,将单词表示为在连续空间上的低维稠密向量形式,生成词向量,并自定义权重矩阵;S4、在一个主节点和三个子节点构成的标准集群中,主节点将分类器权重广播到所述子节点,数据流通过分布式文件管理系统将所述数据块分发至所述子节点,主节点轮询等待所述子节点对数据块的处理结果,随后获取每个子节点处理的权重梯度之和,更新主节点,随后处理下一个数据块,直至数据流结束;S5、初始化CNN参数,输入至卷积神经网络进行并行化训练,在Spark平台下构建基于分布式机器学习的文本分类模型,以对文本进行分类。2.根据权利要求1所述的基于分布式机器学习的文本分类方法,其特征在于,S1包括以下步骤:S11、使用分词系统对数据集进行分词;所述分词系统包括结巴(Jieba)分词系统、Han LP分词系统、清华中文词法分析和THULAC分词系统;S12、使用停用词表对数据集进行去停用词;常见的停用词表包括哈工大停用词表和百度停用词表。3.根据权利要求1所述的基于分布式机器学习的文本分类方法,其特征在于,S2包括以下步骤:S21、按定长的时间窗口机制,将给定的数据流分为固定大小的数据块;S22、为了缓解短文本数据流中的稀疏信息和高维特征,利用外部语料库建立扩展Word2vec模型,采用固定大小的N维词向量Vec对短文本进行向量表示;S23、对t时刻数据流中数据块D
t
使用词向量集合完成向量化,获得向量化表示Vec(D
t
),然后在Vec(D
t
)上进行模型的训练,并对下一个数据块D
t+1
进行预测;S24、对文本进行预测。4.根据权利要求3所述的基于分布式机器学习的文本分类方法,其特征在于,S24具体为:以t时刻的数据块D
t+1
中的短文本为例,通过以下公式预测向量化的文本:其中,为预测标签;为算法集成模型F
t
在第t时刻中第r个分类器的特征权重,σ(
·
)表示为对应激活函数;最后使用文本上下文信息更新扩展Word2vec词向量集合VecE。5.根据权利要求1所述的基于分布式机器学习的文本分类方法,其特征在于,S3包括以下步骤:S31、Word2vec根据语料中词汇共现信息,将词汇编码成一个向量,以计算每个词语在给定语料库环境下的分布式词向量;
S32、通过扩展Word2vec模型对短文本的向量化。6.根据权利要求1所述的基于分布式机器学习的文本分类方法,其特征在于,S4包括以下步骤:S41、机器学习算法通常来说通过给定数据和模型,对目标函数进行迭代直至收敛,具体公式为:M
t
=F(M
t

【专利技术属性】
技术研发人员:盛雪晨陈丹伟
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1