基于图注意力网络的文本情感分析方法技术

技术编号:38755424 阅读:13 留言:0更新日期:2023-09-10 09:40
本发明专利技术提供了基于图注意力网络的文本情感分析方法。包括:基于向量模型对上下文文本进行向量化表示,获取句子词向量和方面词向量;基于Bert预训练模型处理句子词向量和方面词向量获取句子词编码;图注意网络模型GAT基于句法依存树处理句子词向量获取句法信息矩阵;图注意网络模型GAT基于多头自注意力机制处理句子词编码获取语义信息矩阵;基于相互连接向量分别处理句法信息矩阵和语义信息矩阵,获取句法特征矩阵和语义特征矩阵;基于句法特征矩阵和语义特征矩阵获取情感概率分布。解决了现有技术中确定每个评论对象表达情感的上下文范围不准确致情感分析偏差的技术问题。下文范围不准确致情感分析偏差的技术问题。下文范围不准确致情感分析偏差的技术问题。

【技术实现步骤摘要】
基于图注意力网络的文本情感分析方法


[0001]本专利技术涉及文本情感分析
,尤其涉及基于图注意力网络的文本情感分析方法。

技术介绍

[0002]文本情感分析又称之为意见挖掘,是自然语言处理领域中的一个重要研究分支,其主要目的是对主观发表的带有感情色彩的文本数据进行收集、分析和总结,具体而言是指人们对某一实体的观点看法和意见,并对其进行情感分析,从而提取出有价值的信息。文本情感分析按照研究的粒度划分可以划分成三个方向的任务,分别是篇章级文本情感分析、句子级文本情感分析和方面级文本情感分析。篇章级文本情感分析整合一篇文章所有的情感内容,旨在分析文章整体的情感倾向,句子级情感分析是对一个句子进行情感分析。篇章级和句子级都属于概括性地给出评价,因此无法做到面面俱到。而在实际场景中,一段文字往往会给出多个实体,用户对实体的不同方面可能会给出不同的评价,不同实体间的情感差异也有可能是相反的,很多时候人们更关注于某一具体方面的情感极性,以上描述的这两种分析粒度均不能准确地做到这点。方面级情感分析任务的提出刚好可以避免忽视对应实体评价的情况,它是将实体的特征定义为方面,然后继续对句子进行拆分,对实体进行识别和情感分析,最后对各个实体分别给出情感极性判别。
[0003]方面级情感分析可以针对某一特定的方面进行跟踪,便于决策者采取针对性的措施。但是方面级情感分析过程中,因为获取文本中多个评论对象表达情感的上下文范围不准确,从而导致文本情感分析的结果存在偏差。

技术实现思路

[0004]针对现有技术中所存在的不足,本专利技术提供了基于图注意力网络的文本情感分析方法,其解决了现有技术中确定每个评论对象表达情感的上下文范围不准确致情感分析偏差的技术问题。
[0005]根据本专利技术基于图注意力网络的文本情感分析方法,基于图注意力网络的文本情感分析方法,所述方法包括:
[0006]词嵌入步骤:基于向量模型对上下文文本进行向量化表示,获取句子词向量和方面词向量;
[0007]特征提取步骤:基于Bert预训练模型处理句子词向量和方面词向量获取句子词编码;
[0008]图注意网络步骤:图注意网络模型GAT基于句法依存树处理句子词向量获取句法信息矩阵;图注意网络模型GAT基于多头自注意力机制处理句子词编码获取语义信息矩阵;
[0009]融合输出步骤:基于相互连接向量分别处理句法信息矩阵和语义信息矩阵,获取句法特征矩阵和语义特征矩阵;基于句法特征矩阵和语义特征矩阵获取情感概率分布。
[0010]进一步地,基于Bert预训练模型处理句子词向量和方面词向量获取句子词编码,
包括:
[0011]基于预设分析格式处理句子词向量和方面词向量获取Bert预训练模型的预设格式向量;
[0012]基于多头注意力机制计算预设格式向量获取多头注意力权重矩阵;
[0013]对预设格式向量和多头注意力权重矩阵进行归一化操作,获取归一化编码向量;
[0014]将归一化编码向量输入前馈神经网络进行计算,得到句子词编码。
[0015]进一步地,基于多头注意力机制计算预设格式向量获取多头注意力权重矩阵,包括:
[0016]每一自注意力均对预设格式向量进行线性变换获取多个变换矩阵;每一自注意力基于多个变换矩阵获取单头注意力权重矩阵,计算公式为:
[0017][0018]其中,head
i
为第i个单头注意力权重矩阵;Atter(.)为注意力计算函数;d为句子词向量的维度;T表示矩阵转置;Q、K以及U均为变换矩阵;
[0019]将所有单头自注意力权重进行拼接获取多头注意力权重矩阵,计算公式为:
[0020]Z=concat(head1,head2,

,head8)
×
W0;
[0021]其中,Z为多头注意力矩阵;concat为拼接计算函数;W0为权重矩阵。
[0022]进一步地,对预设格式向量和多头注意力权重矩阵进行归一化操作,获取归一化编码向量,包括:将预设格式向量和多头注意力权重矩阵相加后,进行平滑处理获取归一化编码向量。
[0023]进一步地,将归一化编码向量输入前馈神经网络进行计算,得到句子词编码,计算公式为:
[0024][0025]E
L
=b1+W1×
max(Z
×
W2+b2,0);
[0026]其中,LN(x
i
)为单词x
i
的语义矩阵;E
L
为句子词编码;α、ε、β、b1、ε、W1、W2以及b2均为可学习参数;Z为多头注意力矩阵。
[0027]进一步地,图注意网络模型GAT基于句法依存树处理句子词向量获取句法信息矩阵,包括:
[0028]基于句法依赖解析模型处理句子词向量生成邻接矩阵M
syn

[0029]将多头注意力权重矩阵Z作为句法依存树的初始节点,图注意网络模型GAT基于邻接矩阵M
syn
输入获得句法信息矩阵计算公式为:
[0030][0031][0032]其中,为节点j到节点i的注意力系数;Z(i)为以多头注意力权重矩阵Z初始节点
的邻居节点;leakyReLU(.)为激活函数;和W
lk
均为权重参数;以及均为邻居节点的输出;σ(.)为归一化计算函数。
[0033]进一步地,图注意网络模型GAT基于多头自注意力机制处理句子词编码获取语义信息矩阵,包括:
[0034]基于多头注意力机制和topK运算处理句子词编码,获取多个邻接矩阵A
sem

[0035]图注意网络模型GAT按顺序将多个邻接矩阵A
sem
进行拼接后,依次进行softmax运算、argmax运算以及topK运算获取注意力权重矩阵计算公式为:
[0036][0037]其中,topK(.)为注意力选择函数;为第i个邻接矩阵;
[0038]通过GCN层处理注意力权重矩阵获取语义信息矩阵计算公式为:
[0039][0040]其中,σ(.)为归一化计算函数;为注意力权重矩阵;W
sem
'为可学习参数;为上一语义信息矩阵;b
sem
'为偏移量。
[0041]进一步地,基于多头注意力机制和topK运算处理句子词编码,获取多个邻接矩阵A
sem
,包括:
[0042]基于多头自注意机制处理句子词编码获取多个注意力权重矩阵
[0043]将多个注意力权重矩阵相加后进行topK运算获取降噪权重矩阵计算公式为:
[0044][0045]其中,topK(.)为注意力选择函数;k为注意力权重矩阵的个数;
[0046]图注意网络模型GAT计算降噪权重矩阵获取邻接矩阵A
sem

[0047]进一步地,基于相互连接向量分别处理句法信息矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于图注意力网络的文本情感分析方法,其特征在于:所述方法包括:基于向量模型对上下文文本进行向量化表示,获取句子词向量和方面词向量;基于Bert预训练模型处理句子词向量和方面词向量获取句子词编码;图注意网络模型GAT基于句法依存树处理句子词向量获取句法信息矩阵;图注意网络模型GAT基于多头自注意力机制处理句子词编码获取语义信息矩阵;基于相互连接向量分别处理句法信息矩阵和语义信息矩阵,获取句法特征矩阵和语义特征矩阵;基于句法特征矩阵和语义特征矩阵获取情感概率分布。2.如权利要求1所述的基于图注意力网络的文本情感分析方法,其特征在于:基于Bert预训练模型处理句子词向量和方面词向量获取句子词编码,包括:基于预设分析格式处理句子词向量和方面词向量获取Bert预训练模型的预设格式向量;基于多头注意力机制计算预设格式向量获取多头注意力权重矩阵;对预设格式向量和多头注意力权重矩阵进行归一化操作,获取归一化编码向量;将归一化编码向量输入前馈神经网络进行计算,得到句子词编码。3.如权利要求2所述的基于图注意力网络的文本情感分析方法,其特征在于:基于多头注意力机制计算预设格式向量获取多头注意力权重矩阵,包括:每一自注意力均对预设格式向量进行线性变换获取多个变换矩阵;每一自注意力基于多个变换矩阵获取单头注意力权重矩阵,计算公式为:其中,head
i
为第i个单头注意力权重矩阵;Atter(.)为注意力计算函数;d为句子词向量的维度;T表示矩阵转置;Q、K以及U均为变换矩阵;将所有单头自注意力权重进行拼接获取多头注意力权重矩阵,计算公式为:Z=concat(head1,head2,

,head8)
×
W0;其中,Z为多头注意力矩阵;concat为拼接计算函数;W0为权重矩阵。4.如权利要求2所述的基于图注意力网络的文本情感分析方法,其特征在于:对预设格式向量和多头注意力权重矩阵进行归一化操作,获取归一化编码向量,包括:将预设格式向量和多头注意力权重矩阵相加后,进行平滑处理获取归一化编码向量。5.如权利要求4所述的基于图注意力网络的文本情感分析方法,其特征在于:将归一化编码向量输入前馈神经网络进行计算,得到句子词编码,计算公式为:E
L
=b1+W1×
max(Z
×
W2+b2,0);其中,LN(x
i
)为单词x
i
的语义矩阵;E
L
为句子词编码;α、ε、β、b1、ε、W1、W2以及b2均为可学习参数;Z为多头注意力矩阵。6.如权利要求5所述的基于图注意力网络的文本情感分析方法,其特征在于:图注意网络模型GAT基于句法依存树处...

【专利技术属性】
技术研发人员:李建平周越田洁苏辰
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1