基于分布式机器学习的文本分类方法技术

技术编号：35571051 阅读：16 留言：0更新日期：2022-11-12 15:55

本发明专利技术公开了一种基于分布式机器学习的文本分类方法，包括：S1、输入数据集并进行预处理；S2、将数据集进行分块，并提出Word2Vec的分布式文本数据流分类方法；S3、训练Word2Vec模型，将单词表示为在连续空间上的低维稠密向量形式，生成词向量，并自定义权重矩阵；S4、主节点将分类器权重广播到子节点，数据流通过分布式文件管理系统将数据块分发至子节点，主节点轮询等待子节点对数据块的处理结果，以获取权重梯度之和，更新后处理下一个数据块；S5、初始化CNN参数，输入至卷积神经网络进行并行化训练，在Spark平台下构建基于分布式机器学习的文本分类模型。本发明专利技术通过Apache Spark框架的适应性来探索卷积神经网络，充分利用Spark框架的并行优势，提高了文本分类的精度。提高了文本分类的精度。提高了文本分类的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于分布式机器学习的文本分类方法

[0001]本专利技术涉及一种基于分布式机器学习的文本分类方法，属于文本分类处理

技术介绍

[0002]目前，随着信息时代的发展，互联网上的文本数据呈现爆发式的增长。海量的数据未经过分类，人们无法高效地对其提取有用的信息，同时也浪费了网络资源。文本分类作为文本处理重要的技术之一，被广泛地用于各项自然语言处理任务当中。文本分类即是通过特定的算法，分析文本数据中的潜在规则，再将新的文本和对应的类别相匹配。
[0003]长久以来，文本分类的主流方法还是基于统计的机器学习模型，该模型通常采用词袋(bag
‑
of
‑
words)和n元语法(n
‑
gram)等表示方法将文档转化成一个N维向量，然后将该向量输入到支持向量机(Support Vector Machine)、朴素贝叶斯(Naive Bayes)等分类器中，预测文档的标签，基于统计的机器学习模型结构简单，鲁棒性好，但也存在大量问题，比如最重要的统计的文本表示方法的文本语义表示方面是比较浅显的，需要进一步提取文本向量的深层特征，这个过程需要人工进行设计、添加和组合。并且研究者在构建文本特征表示的过程中，由于经验和对问题理解的不同，对不同文本词与词、句子与句子、上下文之间关联性的理解均不相同，所构建的文本特征表示，不能代表文本的核心语义，简单的机器学习模型分类器无法从中解析出文本语义信息。
[0004]2006年Hinton等研究人员发现了深度学习强大的表达能力...

【技术保护点】

【技术特征摘要】
1.一种基于分布式机器学习的文本分类方法，其特征在于，包括以下步骤：S1、输入数据集，并对数据集进行预处理；S2、将数据集进行分块，并提出一种基于Word2Vec的分布式文本数据流分类方法；S3、训练Word2Vec模型，将单词表示为在连续空间上的低维稠密向量形式，生成词向量，并自定义权重矩阵；S4、在一个主节点和三个子节点构成的标准集群中，主节点将分类器权重广播到所述子节点，数据流通过分布式文件管理系统将所述数据块分发至所述子节点，主节点轮询等待所述子节点对数据块的处理结果，随后获取每个子节点处理的权重梯度之和，更新主节点，随后处理下一个数据块，直至数据流结束；S5、初始化CNN参数，输入至卷积神经网络进行并行化训练，在Spark平台下构建基于分布式机器学习的文本分类模型，以对文本进行分类。2.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于，S1包括以下步骤：S11、使用分词系统对数据集进行分词；所述分词系统包括结巴(Jieba)分词系统、Han LP分词系统、清华中文词法分析和THULAC分词系统；S12、使用停用词表对数据集进行去停用词；常见的停用词表包括哈工大停用词表和百度停用词表。3.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于，S2包括以下步骤：S21、按定长的时间窗口机制，将给定的数据流分为固定大小的数据块；S22、为了缓解短文本数据流中的稀疏信息和高维特征，利用外部语料库建立扩展Word2vec模型，采用固定大小的N维词向量Vec对短文本进行向量表示；S23、对t时刻数据流中数据块D
t
使用词向量集合完成向量化，获得向量化表示Vec(D
t
)，然后在Vec(D
t
)上进行模型的训练，并对下一个数据块D
t+1
进行预测；S24、对文本进行预测。4.根据权利要求3所述的基于分布式机器学习的文本分类方法，其特征在于，S24具体为：以t时刻的数据块D
t+1
中的短文本为例，通过以下公式预测向量化的文本：其中，为预测标签；为算法集成模型F
t
在第t时刻中第r个分类器的特征权重，σ(
·
)表示为对应激活函数；最后使用文本上下文信息更新扩展Word2vec词向量集合VecE。5.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于，S3包括以下步骤：S31、Word2vec根据语料中词汇共现信息，将词汇编码成一个向量，以计算每个词语在给定语料库环境下的分布式词向量；
S32、通过扩展Word2vec模型对短文本的向量化。6.根据权利要求1所述的基于分布式机器学习的文本分类方法，其特征在于，S4包括以下步骤：S41、机器学习算法通常来说通过给定数据和模型，对目标函数进行迭代直至收敛，具体公式为：M
t
＝F(M
t

【专利技术属性】
技术研发人员：盛雪晨，陈丹伟，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人