一种文本情感分析方法技术

技术编号:33657039 阅读:14 留言:0更新日期:2022-06-02 20:37
本发明专利技术涉及一种文本情感分析方法,包括以下步骤:S1:将文本句子中的词语转为词向量;S2:将词向量映射为情感特征向量;S3:将词向量和情感特征向量拼接为每个词的情感特征词向量,整个句子中多个情感特征词向量一起作为输入特征矩阵;S4:将输入特征矩阵输入卷积神经网络进行训练,获取第一抽象情感特征;S5:将输入特征矩阵输入双向长短期记忆网络进行训练,获取第二抽象情感特征;S6:将第一抽象情感特征和第二抽象情感特征进行融合拼接,再输入全连接神经网络,最后通过Softmax层输出句子的情感分类。相对于现有技术,本发明专利技术的文本情感分析方法可以快速,准确地实现文本的智能情感分类识别。分类识别。分类识别。

【技术实现步骤摘要】
一种文本情感分析方法


[0001]本专利技术属于自然语言处理的应用领域,尤其是涉及一种文本情感分析方法。

技术介绍

[0002]随着终端移动设备的智能化和交互技术的高速发展,使得人们的在线交流沟通更加高效与频繁,人们越来越习惯通过互联网来表达自己的所思所想,发表自己的观点,例如在微博中对热点事件发表自己的看法及态度,表达自己的心情,如何从互联网中的文本信息中分析出信息发布者的情感倾向,是自然语言处理领域的重要内容之一。
[0003]当前,文本情感分析方法主要有基于情感词典的情感分析方法、基于传统机器学习的情感分析方法和基于深度学习的情感分析方法等。基于情感词典的情感分析方法,主要依赖情感词典的构建,在信息爆炸的今天,各种网络流行语、谐音语、双关语等新词语层出不穷,这就要求情感词典不断扩充才能保证分析的正确率;而基于传统机器学习的情感分析方法,使用统计机器学习算法,抽取文本情感特征,输出情感分析结果,往往过度依赖文本情感特征的提取方法以及分类器的设计,也不能充分考虑上下文的语境信息,也存在一定的缺陷。
[0004]卷积神经网络(Convolution Neural Network,CNN),长短期记忆网络(Long Short

Term Memory,LSTM)、注意力机制等模型在自然语言领域得到了广泛研究与应用,其中也包含了在文本情感分析领域的应用,这些方法可以自主学习文本信息高维度的、深层次的情感特征信息,可以进一步提高分析的准确度,但是这些方法会存在语义角色重叠、高维度文本词向量训练中难以收敛,准确率不高等问题。

技术实现思路

[0005]本专利技术的目的在于提供一种文本情感分析的方法,通过词向量中加入情感特征,并结合卷积神经网络模型和双向长短期记忆网络来对文本情感特征进行分类。
[0006]本专利技术是通过以下技术方案实现的:
[0007]1.一种文本情感分析的方法,包括以下步骤:
[0008]S1:将文本句子中的词语转为词向量;
[0009]S2:将所述词向量映射为情感特征向量;
[0010]S3:将所述词向量和所述情感特征向量拼接为每个词的情感特征词向量,整个句子中多个情感特征词向量一起作为输入特征矩阵;
[0011]S4:将所述输入特征矩阵输入卷积神经网络进行训练,获取第一抽象情感特征;
[0012]S5:将所述输入特征矩阵输入双向长短期记忆网络进行训练,获取第二抽象情感特征;
[0013]S6:将所述第一抽象情感特征和第二抽象情感特征进行融合拼接,再输入全连接神经网络,最后通过Softmax层输出句子的情感分类。
[0014]相对于现有技术,本专利技术的方法可以提高文本情感识别的准确率,并加快训练收
敛速度。
[0015]进一步地,所述步骤S1具体为:通过分词工具讲句子划分为不同词语,再将所述词语输入word2vec模型转为词向量,所述word2vec模型通过对大规模文本数据进行训练将高维稀疏的特征向量映射为低维稠密的词向量。
[0016]进一步地,所述步骤S2可以通过情感词典将所述词向量映射为情感特征向量。
[0017]进一步地,所述步骤S2同时也要对否定词和程度副词进行映射。
[0018]进一步地,所述步骤S3设置句子输入的最大长度为maxlen,若长度小于maxlen,则用0向量补全。
[0019]进一步地,所述步骤S4的卷积神经网络包括多层的卷积层和池化层,最后输出的所述第一抽象情感特征展开为一维特征。
[0020]进一步地,所述步骤S5的双向长短期记忆网络包括输入门、输出门和遗忘门,最后输出的所述第二抽象情感特征展开为一维特征。
[0021]为了能更清晰的理解本专利技术,以下将结合附图说明阐述本专利技术的具体实施方式。
附图说明
[0022]图1是本专利技术文本情感分析方法的流程图。
[0023]图2是本专利技术文本情感分析方法的输入特征矩阵示意图。
[0024]图3是本专利技术文本情感分析方法的实例示意图。
具体实施方式
[0025]本专利技术提出一种文本情感分析方法,可以提高文本情感识别的准确率并加速训练收敛速度。请参阅图1,本专利技术的文本情感分析方法包括以下步骤:
[0026]S1:将文本句子中的词语转为词向量。
[0027]通过分词工具讲句子划分为不同词语,再将所述词语输入Word2Vec模型转为词向量,Word2Vec模型通过对大规模文本数据进行训练将高维稀疏的特征向量映射为低维稠密的词向量。
[0028]在文本分析中,通常将词语作为处理的基本单元,一般将词语转化为一定维度的向量表示,从早期的独热编码发展到现在主流的word2vec模型,word2vec模型可以解决独热编码容易造成维度灾难和词语编码缺乏相关性等问题,其是通过对大规模文本数据进行训练将高维稀疏的特征向量映射为低维稠密的词向量,可以更好地表示词语之间的关系及信息。word2vec模型有CBOW和Skip

gram两种结构,两者都不局限于以前n个词向量来预测第n+1个词向量,而是以n为窗口来计算其中词的出现概率,从而可以充分考虑上下文的关联与影响,它们都是其于霍夫曼树来实现,其中CBOW模型由窗口中上下文多个词去预测中心词,而Skip

gram则是由中心词去预测周围上下文的多个词。利用word2vec模型训练得到的词向量之间余弦距离表示词语之间的关系,余弦相似度值越大,词语间关系越大,余弦相似度值越小,词语间关系越小,这样就能较好地表示词语之间的语义相关性,一个文本字符通过词嵌入层之后转成词向量,就能成为下一步深度学习模型的有效输入信息。
[0029]S2:将所述词向量映射为情感特征向量。
[0030]将所述词向量表示为情感特征向量,可以通过情感词典(例如玻森情感词典)进行
映射,或者通过机器学习模型进行训练,通过该步骤将一个词向量表示为另外一个向量,该向量表示情感的倾向以为情感倾向的程度,词向量转化为情感特征向量同时也要对否定词和程度副词进行映射。
[0031]S3:将所述词向量和所述情感特征向量拼接为每个词的特征向量,整个句子中多个情感特征词向量一起作为输入特征矩阵。
[0032]对于长度为n的句子S=w1,w2,

,w
n
,其中w
n
为第n个词通的词向量,首先将该词向量w
i
根据情感词典词映射为多维的情感特征向量tag
i
,从而获得情感特征向量矩阵E∈R
m
×
|V|
,tag
i
∈R
m
,同时也要对否定词和程度副词进行标注与映射,进而对句子的情感向量进行正确表示。
[0033]因此对于一个具有n个词语的句子,其特征表示为下式:
[0034]w
i
∈R
k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本情感分析方法,其特征在于:包括以下步骤:S1:将文本句子中的词语转为词向量;S2:将所述词向量映射为情感特征向量;S3:将所述词向量和所述情感特征向量拼接为每个词的情感特征词向量,整个句子中多个情感特征词向量一起作为输入特征矩阵;S4:将所述输入特征矩阵输入卷积神经网络进行训练,获取第一抽象情感特征;S5:将所述输入特征矩阵输入双向长短期记忆网络进行训练,获取第二抽象情感特征;S6:将所述第一抽象情感特征和所述第二抽象情感特征进行融合拼接,再输入全连接神经网络,最后通过Softmax层输出句子的情感分类。2.根据权利要求1所述的种文本情感分析方法,其特征在于:所述步骤S1具体为:通过分词工具讲句子划分为不同词语,再将所述词语输入word2vec模型转为词向量,所述word2vec模型通过对大规模文本数据进行训...

【专利技术属性】
技术研发人员:许学添邹同浩肖枫谢文俊
申请(专利权)人:广东司法警官职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1