一种基于依存关系注意力模型的方面级情感词识别方法技术

技术编号:33887951 阅读:37 留言:0更新日期:2022-06-22 17:21
本发明专利技术涉及一种基于依存关系注意力模型的方面级情感词识别方法,属于自然语言处理中的情感分析技术领域。本方法依据句法依存关系来建立多头注意力模型,并将其用于方面级情感词识别。首先,利用句法分析工具生成句法依存结构。然后,考虑到工具所生成句法依存结构存在一定误差,对句法依存结构进行修正。最后,构建基于句法依存关系的多头注意力模型,并用于方面级情感词识别。本发明专利技术对比现有技术,在相同环境、相同数据集下,对于情感词识别查准率、召回率、F1值均有显著提升。F1值均有显著提升。F1值均有显著提升。

【技术实现步骤摘要】
一种基于依存关系注意力模型的方面级情感词识别方法


[0001]本专利技术涉及一种基于依存关系注意力模型的方面级情感词识别方法,属于自然语言处理中的情感分析


技术介绍

[0002]方面级情感词识别,是指针对评论网站上的用户评论进行细粒度的情感词识别。区别于传统的粗粒度的情感词识别(识别一句话中的情感词)技术,方面积情感词识别针对特定的方面词来进行情感词识别。例如,“这家餐厅的味道一般,但是服务很周到”这句话,对于“味道”(方面词),要识别出“一般”(情感词),而对于“服务”则要识别“周到”。这项技术无论是对于商家来改善自己的产品,还是用户想要了解关于产品的信息,都具有相当重要的意义。
[0003]针对方面级情感词识别任务,传统的方法主要基于规则。例如,采用领域情感词词典,结合评论中其他词与方面词的距离来预测情感词。但是,这些方法的步骤繁琐,需要耗费大量的人工成本,且不具备泛化性。
[0004]近年来,随着深度学习的发展,很多学者利用神经网络来解决此问题。在发展初期,比较流行的方法为直接使用LSTM(Long Short<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于依存关系注意力模型的方面级情感词识别方法,包括以下步骤:步骤1:收集相关领域评论数据形成数据集,并标注出其中的方面词与相应的情感词;将数据集划分为训练集和测试集,用于后续模型训练、保存和预测;步骤2:基于步骤1收集的评论数据,生成句法依存结构并对其进行修正;步骤3:构建基于修正后的句法依存结构的多头注意力模型,用于方面级情感词抽取,包括以下步骤:步骤3.1:输入一条包括n个词的评论s,s=[w1,w2,

,w
n
],w
n
表示组成一句话的第n个词;将输入的句子中每个词编码成向量e
i
,,为第i个词的词向量,为第i个词的指示向量,指示向量有两种不同的表示,代表当前词是否为方面词;编码后得到句子的向量表示E,E=[e1,e2,

,e
n
],并作为第一层输入H0;其中,e
n
表示词的综合向量,由词向量和指示向量拼接而成;步骤3.2:利用基于句法依存结构的多头注意力层,融合上下文信息;首先,将上一层的输出经过线性映射,如式1所示:其中,l为层数,t为头的下标,为第t个头的参数,H
l
‑1表示第l

1层的输出,表示第l

1层第t个头的编码;之后,拼接关系节点关系向量,并计算注意力系数,如式2、3、4所示:之后,拼接关系节点关系向量,并计算注意力系数,如式2、3、4所示:之后,拼接关系节点关系向量,并计算注意力系数,如式2、3、4所示:其中,表示第l

1层第i个节点第t个头的编码,表示第l

1层第j个节点第t个头的编码;m
i,j
、m
j,i
分别为依存关系类型矩阵中t
i,j
与t
j,i
所映射成的关系向量,a
i,j
为邻接矩阵相应位置的值;为第l层第i个节点第t个头的综合表示,由和m
i,j
拼接所得;为第l层第j个节点第t个头的综合表示,由和m
j,i
拼接所得;表示第l层i、j节点间第t的头的注意力系数;然后,根据注意力系数,融合上下文信息,得到新的表示如式5所示:其中,ReLU为激活函数,表达式为其中,ReLU为激活函数,表达式为为第t个头的参数;之后,拼接多个头的结果,如式6所示:
其中,表示第l层第t个头的输出,Concat表示拼接,最终得到本层的表示O
l
,,为第l层第n个节点的表示;步骤3.3:利用全连...

【专利技术属性】
技术研发人员:黄永刚李四贝尹琼赵俊翔刘雨程邬惠燕
申请(专利权)人:北京临近空间飞行器系统工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1