一种基于图注意力网络的方面级情感分类方法技术

技术编号:37392354 阅读:12 留言:0更新日期:2023-04-27 07:30
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于图注意力网络的方面级情感分类方法,包括:获取方面词所在的上下文文本的词嵌入表示;根据上下文词与方面词所处的相对位置动态调整上下文词权重,获取上下文语义特征;通过改进的图注意力网络来聚合句法信息,获取文本的句法特征;使用深度交叉网络融合文本句法特征和上下文语义特征,得到最终特征表示;将最终特征表示通过全连接层进行情感预测,得到文本中该方面词的情感极性分布。本发明专利技术弥补了图注意力网络在多层网络下会出现的特征信息丢失的问题,同时在提取语义特征时考虑上下文词所在的位置信息,将句法特征和上下文语义特征充分融合,从而提高了方面级情感分类的准确率。确率。确率。

【技术实现步骤摘要】
一种基于图注意力网络的方面级情感分类方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于图注意力网络的方面级情感分类方法。

技术介绍

[0002]随着互联网的广泛普及,电子商务、社交媒体等应用产业得到迅猛发展,全球网民规模也不断扩大,越来越多的人通过电商平台进行购物并留下商品评价,在社交平台上分享自己的观点,表达自己的想法、态度等,因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息,这些评论信息包含了用户的情感倾向。通常这些海量的文本数据都蕴含着巨大的商业价值,但是如何挖掘出其中有效的信息则是我们需要考虑的问题。以网上购物为例,评论数量巨大,用户很难快速定位到自己关注的商品某个特定方面的信息,单纯通过个人浏览在线评论,获得该商品的综合评价显然是不现实的。传统的情感分类只是识别一个评论整体的情感倾向,对商品所包含的具体方面、属性等并不关注,这种粗粒度的情感识别不但导致了信息提取不充分问题,更无法识别用户所关注的商品特定方面的情感倾向。所以在这种情况下,有必要建立一个对文本进行方面级别情感分类的系统。随着深度学习算法的快速发展,利用自然语言处理领域的相关技术进行文本方面级别的情感分类可以很大程度改善和提高文本有效信息的获取。
[0003]对于文本方面级情感分类,其挑战之一在于使用图注意力网络在多层网络下会出现特征信息丢失的问题,如何保障特征信息可以有效传播,以往的方法大多没有很好地解决。其挑战之二在于如何将文本句法特征和上下文语义特征充分融合,对于一条评论来说,其包含的特征不仅有上下文之间的语义特征,还有包含句法关系的句法特征,两者对于方面级情感的分类都很重要,以往研究大多只考虑了语义特征或者没有将两者进行有效融合,就会导致输出的特征不够全面、准确。

技术实现思路

[0004]为解决上述技术问题,本专利技术提出一种基于图注意力网络的方面级情感分类方法,包括:
[0005]S1:获取方面词所在的上下文文本的词嵌入表示,得到句子所对应的词向量;
[0006]S2:在词向量中根据上下文词与方面词所处的相对位置来动态调整上下文词权重,获取上下文语义特征;
[0007]S3:通过改进的图注意力网络来聚合句法信息,获取文本的句法特征;
[0008]S4:使用深度交叉网络充分融合文本句法特征和上下文语义特征,得到最终特征表示;
[0009]S5:将最终特征表示通过全连接层、softmax函数中进行情感预测,得到文本中该方面词的情感极性分布。
[0010]本专利技术的有益效果:
[0011]1、本专利技术采用残差网络的结构弥补了图注意力网络在多层网络下会出现的特征信息丢失的问题;
[0012]2、本专利技术使用深度交叉网络对上下文语义信息和句法特征进行有效融合获得最终表示;
[0013]3、本专利技术的方法能够实现文本中特定方面词较好的情感分类效果,提高了方面级情感分类的准确率。
附图说明
[0014]图1为本专利技术基于图注意力网络的方面级情感分类方法的总体流程图;
[0015]图2为本专利技术的改进图注意力网络结构图。
具体实施方式
[0016]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]一种基于图注意力网络的方面级情感分类方法,如图1所示,该方法步骤包括:
[0018]S1:获取方面词所在的上下文文本的词嵌入表示,得到句子所对应的词向量;
[0019]S2:在词向量中根据上下文词与方面词所处的相对位置来动态调整上下文词权重,获取上下文语义特征;
[0020]S3:通过改进的图注意力网络来聚合句法信息,获取文本的句法特征;
[0021]S4:使用深度交叉网络充分融合文本句法特征和上下文语义特征,得到最终特征表示;
[0022]S5:将最终特征表示通过全连接层、softmax函数中进行情感预测,得到文本中该方面词的情感极性分布。
[0023]获取方面词所在的上下文文本的词嵌入表示的过程包括:
[0024]给定一个包含n个词的句子s,s={w1,w2,...,w
t+1
,...,w
t+m
,...,w
n
},和长度为m的的方面词a={w
t+1
,...,w
t+m
},即方面词a是句子s的一部分。使用BERT预训练模型对上下文进行建模,为了便于BERT模型的训练和微调,将文本序列重构为“[CLS]+s+[SEP]+a+[SEP]”的形式,经过BERT模型输出的特征向量表示为{e0,e1,...,e
n
‑1,e
n
,e
n+1
,e
t+1
,...,e
t+m
,e
n+2+m
},其中句子s的特征向量为h
s
={e1,e2,...,e
n
},方面词a的特征向量为h
a
={e
t+1
,e
t+2
,...,e
t+m
},记n表示文本序列的长度,d表示词嵌入维度。其中,BERT表示基于Transformer的双向编码表征。
[0025]在方面级情感分类任务中,上下文中每个词对于方面词情感的贡献程度是不同的,对方面词情感影响较大的词通常位于以方面词为中心的局部区域,距离方面词较远的词影响相对较小。故我们在提取语义特征时应该更多关注局部区域内的上下文词,降低域外噪声词的影响。
[0026]获取上下文语义特征的具体步骤如下:
[0027]S21:计算上下文词与方面词之间的语义相对距离,设上下文中第t个单词与方面
词之间的语义相对距离为D
t
,则计算公式为:
[0028][0029]其中,D
t
表示上下文中第t个单词与方面词之间的语义相对距离,P
t
表示上下文中第t个单词的位置,P
asp
表示方面词的中心位置,len表示方面词的长度,n表示句子长度,和分别表示当计算结果不为整数时向上取整和向下取整。
[0030]S22:获取上下文语义特征,设以方面词为中心的局部区域的阈值为γ,当D
t
小于等于γ时,则认为该单词属于局部区域内,否则属于域外。对于域内的词,我们认为都很重要,权重系数都为1,对于域外的词随着D
t
的增加权重系数动态衰减;具体公式如下:
[0031][0032]W={w1,w2,...,w
n
}
[0033]h
ex
=h
s
·...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的方面级情感分类方法,其特征在于,包括:S1:获取方面词所在的上下文文本的词嵌入表示,得到句子所对应的词向量;S2:在词向量中根据上下文词与方面词所处的相对位置来动态调整上下文词权重,获取上下文语义特征;S3:通过改进的图注意力网络来聚合句法信息,获取文本的句法特征;S4:使用深度交叉网络充分融合文本句法特征和上下文语义特征,得到最终特征表示;S5:将最终特征表示通过全连接层、softmax函数中进行情感预测,得到文本中该方面词的情感极性分布。2.根据权利要求1所述的一种基于图注意力网络的方面级情感分类方法,其特征在于,获取方面词所在的上下文文本的词嵌入表示,包括:给定一个包含n个词的句子s,s={w1,w2,...,w
t+1
,...,w
t+m
,...,w
n
},从句子s中提取长度为m的方面词a={w
t+1
,...,w
t+m
},将文本序列重构为“[CLS]+s+[SEP]+a+[SEP]”的形式,使用BERT预训练模型对上下文进行建模,经过BERT模型输出的特征向量表示为{e0,e1,...,e
n
‑1,e
n
,e
n+1
,e
t+1
,...,e
t+m
,e
n+2+m
},其中句子s的特征向量为h
s
={e1,e2,...,e
n
},方面词a的特征向量为h
a
={e
t+1
,e
t+2
,...,e
t+m
},记n表示文本序列的长度,d表示词嵌入维度。3.根据权利要求1所述的一种基于图注意力网络的方面级情感分类方法,其特征在于,获取上下文语义特征,包括:h
ex
=h
s
·
W其中,h
ex
表示经过特征提取层后的上下文语义特征,W表示文本的权重矩阵,W={w1,w2,...w
t
...,w
n
},w
t
表示调整后第t个单词的权重向量,E表示单位列向量,γ表示以方面词为中心的局部区域的阈值,D
t
表示上下文中第t个单词与方面词之间的语义相对距离,P
t
表示上下文中第t个单词的位置,P
asp
表示方面词的中心位置,len表示方面词的长度,n表示句子长度,和分别表示当计算结果不为整数时向上取整和向下取整。4.根据权利要求1所述的一种基于图注意力网络的方面级情感分类方法,其特征在于,获取文本的句法特征,包括:S31:对文本进行句法解析生成相应的句法依存树,通过句法依存树将输入文本信息转换成包含N个节点的句法图结构,无向图结构和有向图结构,图中每个节点表示句子中的一个词,边表示每个词之间的句法依赖关系,节点i的邻居节点可以表示为N(i);S32:分别将文本信息的无向图结构和有向图结构输入改进的图注意力网络ImGAT,所述改进的图注意力网络(...

【专利技术属性】
技术研发人员:唐宏刘蓓明杨浩澜孙锐黄水文
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1