一种基于注意力机制的方面级文本情感分析方法及系统技术方案

技术编号:35568645 阅读:15 留言:0更新日期:2022-11-12 15:52
本发明专利技术公开了一种基于注意力机制的方面级文本情感分析方法及系统。方法包括:对文本数据进行预处理,将预处理后的文本数据转换为包含上下文语境信息的词向量,将得到的词向量输入文本情感分析模型,输出得到文本情感倾向。文本情感分析模型包括若干神经网络单元、若干局部注意力机制单元、全局注意力机制单元、权重融合单元、全连接层和softmax层。本发明专利技术能够充分挖掘语义,同时兼顾局部和全局特征,使得模型能够高效地拟合,提升了模型准确率。率。率。

【技术实现步骤摘要】
一种基于注意力机制的方面级文本情感分析方法及系统


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于注意力机制的方面级文本情感分析方法及系统。

技术介绍

[0002]近些年来全球互联网行业得到快速发展,随着先进的数字化技术得到应用,我们可以看到网络上用户生成内容的大量增加,大量的文本数据得以生成。这些内容提供了人们对不同主题以及事物的意见。这一巨大变化也促进了文本情感分析这一研究领域的蓬勃发展。文本情感分析又称观点挖掘、倾向性分析,是人们对产品、服务、问题、事件以及主题等实体的观点、情感、态度及其属性的计算研究。情感分析可以跟踪公众对特定实体的情绪,以创建可操作的知识。此外,这种类型的知识还可以被用来理解、解释和预测社会现象,例如当某一政策发行之后,决策者可根据受众的情感倾向来及时调整相关政策,使得政策更加合理,实施更加顺利。情感分析目前已经成为自然语言处理(Natural Language Processing,NLP)中最活跃的研究领域之一,也在数据挖掘,Web挖掘,文本挖掘和信息检索方面有广泛的应用。事实上,它已经从计算机科学蔓延到管理科学和社会科学,如市场营销,金融,政治学,通讯,医疗科学,甚至历史学,其重要的商业性引发了整个社会的共同关注。
[0003]近几年来,得益于计算机运算能力的大幅度提升,深度学习成为了研究热门,基于深度学习的情感分析算法也成为了学者们的主要研究对象。目前基于深度学习的情感分析方法大部分都是建立在卷积神经网络、循环神经网络、长短期记忆神经网络等基础神经网络的基础之上。相比于传统的情感分析方法,基于深度学习的情感分析方法极大地提高了分析效率,同时取得了较高的准确率,能够更好地满足客户的期望,达到客户的要求。但是目前对于文本的情感分析大都聚焦于篇章级以及句子级文本上面,对于方面级文本的情感分析研究甚少。由于人类语言内容相当丰富,一个篇章甚至一句话中通常包含多个方面多个实体,若只是在篇章级和语句级上面对文本进行整体的情感分析,难免会丢失大量信息,得出的结论甚至会与真实情况大相径庭。例如一个对于餐厅的评价:

这家餐厅的服务态度很差,但菜品的口味非常好

,这个文本包含了两个情感截然不同的方面,需要得到分开考虑,如果采用句子级文本情感分析的话,只会对这一整句话给出一个情感倾向,丢失大量的信息。
[0004]文献《一种采用双向长短期记忆网络的方面级情感分析方法》(申请号:202011325337.1)公开了一种采用双向长短期记忆网络的方面级情感分析方法,包括:步骤1,进行数据清洗并使用word2vec将其词向量化;步骤2,建立带有方面感知的双向长短期记忆网络;步骤3,建立基于多重注意力模型的Encoder

Decoder模型;步骤4,情感极性分析,输出结果。该专利技术改善传统的情感分析算法中对不同方面情感分析的单一性及笼统型问题,更加准确的对用户评论中不同方面的情感极性进行判断。
[0005]但是,该技术未充分考虑文本的上下文语境,所采用的长短期记忆网络(LSTM)模
型效率不高,具体缺点包括:1)所提出的方法没有数据预处理过程,无法去除图片动静态图等影响,导致其在实际应用场景中,效果不佳,准确率不高;2)仅仅使用一个双向LSTM网络里挖掘文本的隐藏信息,易遗漏大量关键信息,使得上下文语境信息利用不充分;3)所引入的Encoder

Decoder模型,无法兼顾局部与总体特征,没有误差修正,无法有效地对不同词向量分配合适的注意力,使得模型拟合效率低下,算力消耗大。

技术实现思路

[0006]本专利技术的目的在于提供一种基于注意力机制的方面级文本情感分析方法及系统,以解决目前情感分析技术无法充分利用文本的上下文信息,当前模型拟合效率低下,误差大,准确率不高等一个或多个问题。
[0007]为实现上述目的,本专利技术采用如下技术方案:
[0008]一方面,一种基于注意力机制的方面级文本情感分析方法,包括:
[0009]对文本数据进行预处理;
[0010]将预处理后的文本数据转换为包含上下文语境信息的词向量;
[0011]将得到的词向量输入文本情感分析模型,输出得到文本情感倾向;
[0012]其中,文本情感分析模型包括若干神经网络单元、若干局部注意力机制单元、全局注意力机制单元、权重融合单元、全连接层和softmax层,若干神经网络单元和若干局部注意力机制单元依次交替连接,全局注意力机制单元的输入连接第一级神经网络的输入和最后一级神经网络的输出,权重融合单元同时与各局部注意力机制单元和全局注意力机制单元连接。
[0013]进一步地,每个局部注意力机制单元根据上一级神经网络单元的输入与输出进行权重计算,输出带注意力的词向量,作为下一级神经网络单元的输入;
[0014]全局注意力机制单元根据第一级神经网络单元的输入与最后一级神经网络单元的输出进行权重计算,输出带全局注意力权重的词向量;
[0015]权重融合单元将各个局部注意力机制单元的权重和全局注意力机制单元的权重进行融合得到融合权重,融合权重与最后一级局部注意力机制单元的输出作乘积累加,输出对应的词向量,各词向量经融合后输入全连接层中;
[0016]经全连接层处理后的数据输入softmax层进行情感极性分类,输出得到文本情感倾向。
[0017]进一步地,所述若干神经网络单元中,前M个神经网络单元采用BiGRU网络,其余神经网络单元采用GCN网络,1≦M<N,N为神经网络单元的个数。
[0018]进一步地,所述对文本数据进行预处理,包括:
[0019]删除文本数据中的重复评论、表情符号和动静态图类评论,获得结构化文本数据。
[0020]进一步地,采用基于transformer的BERT预训练模型将预处理后的文本数据转换为包含上下文语境信息的词向量,具体包括:
[0021]采用BERT预训练模型对预处理后的文本数据进行词切割,将完整的句子切割成单个的字词;
[0022]对所获得的字词进行语义编码、位置编码和段落编码,得到包含上下文语境信息的词向量。
[0023]进一步地,所述每个局部注意力机制单元根据上一级神经网络单元的输入与输出进行权重计算,输出带注意力的词向量,作为下一级神经网络单元的输入,包括:
[0024]将上一级神经网络单元的输出和输入分别作为本级局部注意力机制单元中的query和key值,将两者做相似度计算操作再通过softmax操作得到各词向量注意力权重;
[0025]将各词向量注意力权重与本级局部注意力机制单元输入的词向量作乘积累加,输出带注意力的词向量。
[0026]进一步地,所述相似度的计算公式为:
[0027][0028]其中,Query代表上一级神经网络单元的输出词向量,Key
j
代表上一级神经网络单元输入的整体文本向量中的第j个词向量。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的方面级文本情感分析方法,其特征在于,包括:对文本数据进行预处理;将预处理后的文本数据转换为包含上下文语境信息的词向量;将得到的词向量输入文本情感分析模型,输出得到文本情感倾向;其中,文本情感分析模型包括若干神经网络单元、若干局部注意力机制单元、全局注意力机制单元、权重融合单元、全连接层和softmax层,若干神经网络单元和若干局部注意力机制单元依次交替连接,全局注意力机制单元的输入连接第一级神经网络的输入和最后一级神经网络的输出,权重融合单元同时与各局部注意力机制单元和全局注意力机制单元连接。2.根据权利要求1所述的一种基于注意力机制的方面级文本情感分析方法,其特征在于,每个局部注意力机制单元根据上一级神经网络单元的输入与输出进行权重计算,输出带注意力的词向量,作为下一级神经网络单元的输入;全局注意力机制单元根据第一级神经网络单元的输入与最后一级神经网络单元的输出进行权重计算,输出带全局注意力权重的词向量;权重融合单元将各个局部注意力机制单元的权重和全局注意力机制单元的权重进行融合得到融合权重,融合权重与最后一级局部注意力机制单元的输出作乘积累加,输出对应的词向量,各词向量经融合后输入全连接层中;经全连接层处理后的数据输入softmax层进行情感极性分类,输出得到文本情感倾向。3.根据权利要求1所述的一种基于注意力机制的方面级文本情感分析方法,其特征在于,所述若干神经网络单元中,前M个神经网络单元采用BiGRU网络,其余神经网络单元采用GCN网络,1≦M<N,N为神经网络单元的个数。4.根据权利要求1所述的一种基于注意力机制的方面级文本情感分析方法,其特征在于,所述对文本数据进行预处理,包括:删除文本数据中的重复评论、表情符号和动静态图类评论,获得结构化文本数据。5.根据权利要求1所述的一种基于注意力机制的方面级文本情感分析方法,其特征在于,采用基于transformer的BERT预训练模型将预处理后的文本数据转换为包含上下文语境信息的词向量,具体包括:采用BERT预训练模型对预处理后的文本数据进行词切割,将完整的句子切割成单个的字词;对所获得的字词进行语义编码、位置编码和段落编码,得到包含上下文语境信息的词向量。6.根据权利要求2所述的一种基于注意力机制的方面级文本情感分析方法,其特征在于,所述每个局部注意力机制单元根据上一级神经网络单元的输入与输出进行权重计算,输出带注意力的词向量,作为下一...

【专利技术属性】
技术研发人员:孙雁飞武长超亓晋许斌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1