一种文本情感分类方法及装置制造方法及图纸

技术编号:21714530 阅读:23 留言:0更新日期:2019-07-27 19:14
本公开公开了一种文本情感分类方法及装置,该方法包括:接收文本数据,构建分布式词向量,得到特征矩阵;将特征矩阵输入卷积神经网络模型,通过所述卷积神经网络模型的多滑动窗口的卷积层对特征矩阵进行卷积运算;通过所述卷积神经网络模型的k‑max和avg‑pooling并行双池化层进行池化操作;通过所述卷积神经网络模型的串接层拼接构建文本级别的全局特征向量,对其降维后运用朴素贝叶斯分类器获取文本情感分类结果;采用改进的梯度下降算法优化所述卷积神经网络模型参数。

A Text Emotion Classification Method and Device

【技术实现步骤摘要】
一种文本情感分类方法及装置
本公开属于自然语言处理和深度学习的
,涉及一种文本情感分类方法及装置。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。伴随着计算机通信水平的显著提升,互联网用户的角色也由原本的信息接受者悄然转变为信息的创造者。与此同时,社交媒体也步入了发展的快车道,促使用户形成了以短文本为主的表达方式。因此,短文本的情感分析具有了更加重要的应用意义。文本情感分析是以情感词典,数据挖掘,机器学习等技术为支撑,透过文本的实际内容,处理并获取作者对文本内容的基本态度,情绪和观点。从而更好的反作用于生产应用与社会实践。网络短文本包含了丰富的用户情信息,具有丰富的研究意义。基于传统的短文本情感分析主要包括两大类:基于情感词典的方法和基于机器学习的方法。基于情感词典的方法主要是通过情感词来确定情感极性,但是情感词典需要人工构建,这种方法利用情感词的情感色彩判断句子整体的情感倾向,没有考虑到上下文关系,是一种相对底层的情感分类方法。后者主要是利用有监督的机器学习的方法,用训练好的分类器对文本进行情感分类,虽然其在情感极性的判断上与传统的情感词典方法相比有了明显的提高,考虑到了上下文语义信息,但是也存在着受限于稀疏的特征表达,每一个特征都用一个高维的稀疏向量进行表示,难以判别语义相似的特征,常常依赖于人工抽取特征等问题。近几年以来,随着深度学习技术的高质量发展,其在大规模文本数据的智能理解上表现出了独特的优势,现存的诸如LSTM,RNN,CNN等神经网络模型已经大量的应用在了文本情感分析并且取得了不错的实验结果,其中,Kim等在多个情感分类数据集上将多种深度学习模型进行了对比,结果发现卷积神经网络在文本情感分析,特别是短文本情感分析中,具有更好的实验效果。然而,专利技术人在研发过程中发现,卷积神经网络在情感多分类方面还存在着准确度不高,提取上下文语义薄弱等问题。虽然近几年对于卷积神经网络的改进层出不穷,但是仍然无法较好的解决网络短文本创作随意性和语义深层次性问题。
技术实现思路
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种文本情感分类方法及装置,结合改进梯度下降算法(PSGD)并对卷积神经网络结构进行改进后实现文本情感分类,有效弥补现存卷积神经网络文本分类方法存在着准确度不高,提取上下文语义薄弱、无法有效解决池化层降维损失语义信息、和参数更新算法不稳定等问题。根据本公开的一个或多个实施例的一个方面,提供一种文本情感分类方法。一种文本情感分类方法,该方法包括:接收文本数据,构建分布式词向量,得到特征矩阵;将特征矩阵输入卷积神经网络模型,通过所述卷积神经网络模型的多滑动窗口的卷积层对特征矩阵进行卷积运算;通过所述卷积神经网络模型的k-max和avg-pooling并行双池化层进行池化操作;通过所述卷积神经网络模型的串接层拼接构建文本级别的全局特征向量,对其降维后运用朴素贝叶斯分类器获取文本情感分类结果;采用改进的梯度下降算法优化所述卷积神经网络模型参数。进一步地,在该方法中,对接收的文本数据进行数据预处理,将数据预处理后的文本数据通过word2vec工具构建分布式词向量;所述数据预处理包括数据清洗和分词。进一步地,在该方法中,所述卷积层包括多个窗口大小不同的卷积核,通过所述卷积神经网络模型的多个窗口大小不同的卷积核对所述特征矩阵进行卷积运算,提取不同窗口大小的文本局部语义向量;每个所述卷积层包括若干个并行运算的卷积单元。进一步地,在该方法中,所述卷积神经网络模型还包括滤波单元,经过所述卷积层卷积运算得到的文本局部语义向量通过所述滤波单元,完成特征抽取。进一步地,在该方法中,所述k-max和avg-pooling并行双池化层包括并行的avg-pooling池化层和k-max池化层。进一步地,在该方法中,所述k-max池化层根据卷积核高度确定特征图下采样个数,所述卷积核高度与特征图下采样个数成反比。进一步地,在该方法中,采用PCA对全局特征向量进行降维。进一步地,在该方法中,所述采用改进的梯度下降算法优化所述卷积神经网络模型参数为通过选取数据相关性较高的样本来形成卷积神经网络模型的批量数据训练集。根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种文本情感分类方法。根据本公开的一个或多个实施例的一个方面,提供一种终端设备。一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种文本情感分类方法。根据本公开的一个或多个实施例的一个方面,提供一种文本情感分类装置。一种文本情感分类装置,基于所述的一种文本情感分类方法,包括:数据采集模块,被配置为接收文本数据,构建分布式词向量,得到特征矩阵;卷积神经网络模块,被配置为将特征矩阵输入卷积神经网络模型,通过所述卷积神经网络模型的多滑动窗口的卷积层对特征矩阵进行卷积运算;通过所述卷积神经网络模型的k-max和avg-pooling并行双池化层进行池化操作;通过所述卷积神经网络模型的串接层拼接构建文本级别的全局特征向量,对其降维后运用朴素贝叶斯分类器获取文本情感分类结果;参数优化模块,被配置采用改进的梯度下降算法优化所述卷积神经网络模型参数。本公开的有益效果:(1)本公开提供的一种文本情感分类方法及装置,主要针对线上网络短文本信息创作随意性和语义深层次性的特点设计了多尺寸多滑动窗口的卷积运算层,深度挖掘其隐含信息;对词向量构建开销大,训练模型无法支撑庞大数据量的问题,本公开结合PCA利用降维的思想,对高维度的数据进行数据标准化,接着求得目标矩阵的协方差矩阵和其对应的特征向量,最后通过线性变换将最初的数据转变成一种任意维度线性无关的表示,从而把多指标(高维度)转化为少数几个主要的特征分量,从而减小开销;(2)本公开提供的一种文本情感分类方法及装置,针对目前卷积神经网络文本分类模型无法有效解决池化层降维损失语义信息的问题,融合了k-max池化方法动态提取的特质和avg-pooling池化方法对短文本平均语义的贡献能力,提出了结合k-max和avg-pooling方法的并行双池化层结构进行池化操作,在降低开销的同时尽可能的保留更深层次的语义信息;(3)本公开提供的一种文本情感分类方法及装置,运用朴素贝叶斯分类器假设独立、对缺失数据不太敏感,算法也比较简单的特点来代替softmax分类器从而提高分类的准确率;(4)本公开提供的一种文本情感分类方法及装置,改进的梯度下降算法解决了BGD算法当样本数目很大时,每次迭代都需要对所有样本计算,训练时间开销大;SGD算法经常陷入局部最优解使得模型无法收敛;而Mini-BGD又极度依赖batch_size的经验取值等问题;本公开所提改进的梯度下降算法可以保证模型的稳定性,提高训练速度,缩短模型收敛时间。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1是根据一个或多个实施例的一种文本情感分类方法流本文档来自技高网
...

【技术保护点】
1.一种文本情感分类方法,其特征在于,该方法包括:接收文本数据,构建分布式词向量,得到特征矩阵;将特征矩阵输入卷积神经网络模型,通过所述卷积神经网络模型的多滑动窗口的卷积层对特征矩阵进行卷积运算;通过所述卷积神经网络模型的k‑max和avg‑pooling并行双池化层进行池化操作;通过所述卷积神经网络模型的串接层拼接构建文本级别的全局特征向量,对其降维后运用朴素贝叶斯分类器获取文本情感分类结果;采用改进的梯度下降算法优化所述卷积神经网络模型参数。

【技术特征摘要】
1.一种文本情感分类方法,其特征在于,该方法包括:接收文本数据,构建分布式词向量,得到特征矩阵;将特征矩阵输入卷积神经网络模型,通过所述卷积神经网络模型的多滑动窗口的卷积层对特征矩阵进行卷积运算;通过所述卷积神经网络模型的k-max和avg-pooling并行双池化层进行池化操作;通过所述卷积神经网络模型的串接层拼接构建文本级别的全局特征向量,对其降维后运用朴素贝叶斯分类器获取文本情感分类结果;采用改进的梯度下降算法优化所述卷积神经网络模型参数。2.如权利要求1所述的一种文本情感分类方法,其特征在于,在该方法中,对接收的文本数据进行数据预处理,将数据预处理后的文本数据通过word2vec工具构建分布式词向量;所述数据预处理包括数据清洗和分词。3.如权利要求1所述的一种文本情感分类方法,其特征在于,在该方法中,所述卷积层包括多个窗口大小不同的卷积核,通过所述卷积神经网络模型的多个窗口大小不同的卷积核对所述特征矩阵进行卷积运算,提取不同窗口大小的文本局部语义向量;每个所述卷积层包括若干个并行运算的卷积单元。4.如权利要求3所述的一种文本情感分类方法,其特征在于,在该方法中,所述卷积神经网络模型还包括滤波单元,经过所述卷积层卷积运算得到的文本局部语义向量通过所述滤波单元,完成特征抽取。5.如权利要求1所述的一种文本情感分类方法,其特征在于,在该方法中,所述k-max和avg-pooling并行双池化层包括并行的avg-pooling池化层和k-max池化层;所述k-max池化...

【专利技术属性】
技术研发人员:刘方爱张敬仁徐卫志王倩倩孙文晨谭俏俏赵俊杰
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1