使用图扩散变换器进行方面级情感分类的方法和系统技术方案

技术编号:37708338 阅读:9 留言:0更新日期:2023-06-01 23:58
一种方面级情感分类系统和方法。该系统包括计算设备,该计算设备包括处理器和存储有计算机可执行代码的存储设备。所述计算机可执行代码被配置为:接收具有被标记的方面术语和上下文的语句;将语句转换为依存树图;基于图中任意两个节点之间的一跳注意力,计算依存树图的注意力矩阵;根据注意力矩阵,计算任意两个节点的多头注意力扩散;使用多头扩散注意力获得图的更新嵌入;基于图的更新嵌入对方面术语进行分类,以获得方面术语的预测分类;基于方面术语的预测分类和地面真值标签,计算损失函数;以及基于损失函数调整计算机可执行代码中模型的参数。模型的参数。模型的参数。

【技术实现步骤摘要】
【国外来华专利技术】使用图扩散变换器进行方面级情感分类的方法和系统
[0001]交叉引用
[0002]本申请根据35U.S.C.
§
119(e)要求2020年9月23日提交的申请号为63/082,105题为“METHOD AND SYSTEM FOR ASPECT

LEVELSENTIMENT CLAS SIFICATION BY GRAPH DIFFUSIONTRANSFORMER”的美国临时专利申请的优先权权益,所列出的专利技术人为Xiaochen Hou,Jing Huang,Guangtao Wang,Xiaodong He和BowenZhou,该美国临时专利申请的全部内容通过引用并入本文。
[0003]在本公开的描述中引用和讨论了一些参考文献,其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述,并不承认任何此类参考文献相对于本公开是已有的。在本说明书中引用的或讨论的所有参考文献通过引用整体并入本文,并且与每篇参考文献通过引用单独并入的程度相同。


[0004]本公开总体上涉及文本的情感分析,更具体地,涉及使用图扩散变换器(GDT)进行方面级情感分类的方法和系统。

技术介绍

[0005]在此提供的背景描述是为了概括地呈现本公开的上下文。在本背景部分描述的范围内,专利技术人的工作以及在提交申请时可能不符合已有的描述方面,既不明确也不隐含地承认为相对于本公开是已有的。
[0006]方面级情感分类是一项细粒度的情感分析任务,旨在识别评论中出现的特定方面术语的情感极性(例如,正面、负面或中性)。例如,评论可以是“尽管菜单略为有限,但一切都制作得非常完美,超新鲜,堪称美食艺术作品。”评论中的方面术语“菜单”和“美食”的情感极性分别为负面和正面。该任务有很多应用,例如协助顾客在电子商务网站上做出购买决策。
[0007]最近的研究表明,方面术语与其上下文之间的交互对于识别给定方面术语的情感极性至关重要。大多数方法只考虑上下文词的语义信息,利用注意力机制来学习这种交互。然而,已经表明,从依存关系解析中获得的句法信息在捕获表层形式不清楚的远程句法关系方面非常有效。最近成功的学习语法感知表示的方法在依存树上使用了图神经网络(Graph Neural Network,GNN)模型,该模型允许以句法方式在方面术语和上下文词之间传递消息。流行的GNN模型之一是图注意力网络(GAT)。在一层GAT中,GAT仅计算直接一跳邻居的注意力分数。当方面术语远离其观点上下文时,需要更多的GAT层。例如,在图1中,方面术语“汤(soup)”和观点词“不好喝(not tasty)”之间的依存树上有四跳距离。因此,在这种情况下需要四层GAT。尽管更深的GAT仍然可以通过堆叠多层在相距较远的节点之间传递信息,但以前的大多数工作已经表明,具有两层的GNN模型可以实现最佳性能,并且由于过度平滑问题,更深的GAT不会带来附加增益。
[0008]因此,本领域存在解决学习远距离节点之间的影响以准确地分类方面级情感的需
要。

技术实现思路

[0009]在一些方面,本公开涉及一种系统。在一些实施例中,系统包括计算设备,计算设备具有处理器和存储有计算机可执行代码的存储设备。计算机可执行代码在所述处理器处执行时被配置为:接收具有方面术语和上下文的语句,所述方面术语具有分类标签;将所述语句转换为依存树图;基于所述依存树图中多个节点中的任意两个节点之间的一跳注意力,计算所述依存树图的注意力矩阵;基于所述注意力矩阵,根据所述依存树图中所述多个节点中的任意两个节点之间的多跳注意力计算图注意力扩散;使用所述图扩散注意力,获得所述依存树图的更新嵌入;基于所述依存树图的所述更新嵌入,对所述方面术语进行分类,以获得所述方面术语的预测分类;基于所述方面术语的所述预测分类和所述方面术语的所述分类标签,计算损失函数;以及基于所述损失函数,调整所述计算机可执行代码中模型的参数。
[0010]在一些实施例中,所述计算机可执行代码具有嵌入模块、注意力模块和依存树模块。所述嵌入模块、所述注意力模块和所述依存树模块被配置为通过以下步骤将所述语句转换为所述依存树图:通过所述嵌入模块嵌入所述方面术语,以获得方面术语嵌入X
t
;通过所述注意力模块,使用等式和H
α
=αX
t
将所述方面术语嵌入转换为方面术语特征H
α
,其中m是指示所述方面术语的嵌入分词的个数的正整数,d是指示嵌入的维度的正整数,为X
t
的转置,σ表示tanh激活函数;通过所述嵌入模块嵌入所述上下文,以获得上下文嵌入X
c
,每个上下文嵌入对应于所述语句中不是所述方面术语的词或标点符号;通过所述依存树模块,将所述语句解析为依存树;以及通过所述依存树模块,将所述方面术语特征H
α
、所述上下文嵌入X
c
和所述依存树组合为依存树图,其中所述依存树图的每个节点具有与所述方面术语嵌入和所述上下文嵌入中的一者相对应的特征。
[0011]在一些实施例中,所述计算机可执行代码包括多个图扩散变换器(Graph Diffustion Transformer,GDT)层,所述多个GDT层中的第lGDT层被配置为通过以下步骤计算所述注意力矩阵:计算所述依存树图中节点i和节点j的注意力分数其中其中和为可学习的权重,为节点i在第lGDT层的特征,||为拼接操作,σ1是ReLU激活函数,σ2是LeakyReLU激活函数;获得注意力分数矩阵S
(l)
:以及计算注意力矩阵A
(l)
:A
(l)
=softmax(S
(l)
)。
[0012]在一些实施例中,所述第lGDT层被配置为通过以下步骤计算所述图注意力扩散注意力:计算扩散注意力矩阵意力:计算扩散注意力矩阵意力:计算扩散注意力矩阵α∈(0,1],其中
hop为2至12范围内的正整数,θ
hop
为注意力衰减因子;以及计算所述图注意力扩散为注意力衰减因子;以及计算所述图注意力扩散其中H
(l)
为第l层的输入依存树图嵌入。
[0013]在一些实施例中,所述第lGDT层被配置为通过以下等式近似计算所述图注意力扩散Z
(k+1)
=(1

α)A
(l)
Z
k
+αH
(l)
;Z
(0)
=H
(l)
;以及其中k是[0

K]范围内的整数。
[0014]在一些实施例中,K是2至12范围内的正整数,l是2至24范围内的正整数。
[0015]在一些实施例中,所述第lGDT层被配置为通过以下步骤获得所述依存树图的更新嵌入:将多个头的图注意力扩散进行拼接,以获得拼接注意力扩散进行拼接,以获得拼接注意力扩散其中中的每一者与多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括计算设备,所述计算设备包括处理器和存储有计算机可执行代码的存储设备,其中,所述计算机可执行代码在所述处理器处执行时被配置为:接收具有方面术语和上下文的语句,所述方面术语具有分类标签;将所述语句转换为依存树图;基于所述依存树图中多个节点中的任意两个节点之间的一跳注意力,计算所述依存树图的注意力矩阵;基于所述注意力矩阵,根据所述依存树图中所述多个节点中的任意两个节点之间的多跳注意力计算图注意力扩散;使用所述图扩散注意力,获得所述依存树图的更新嵌入;基于所述依存树图的所述更新嵌入,对所述方面术语进行分类,以获得所述方面术语的预测分类;基于所述方面术语的所述预测分类和所述方面术语的所述分类标签,计算损失函数;以及基于所述损失函数调整所述计算机可执行代码中模型的参数。2.根据权利要求1所述的系统,其中,所述计算机可执行代码包括嵌入模块、注意力模块和依存树模块,所述嵌入模块、所述注意力模块和所述依存树模块被配置为通过以下步骤将所述语句转换为所述依存树图:通过所述嵌入模块嵌入所述方面术语,以获得方面术语嵌入X
t
;通过所述注意力模块,使用等式和H
α
=αX
t
将所述方面术语嵌入转换为方面术语特征H
α
,其中m是指示所述方面术语的嵌入分词的个数的正整数,d是指示嵌入的维度的正整数,为X
t
的转置,σ表示tanh激活函数;通过所述嵌入模块嵌入所述上下文,以获得上下文嵌入X
c
,每个上下文嵌入对应于所述语句中不是所述方面术语的词或标点符号;通过所述依存树模块,将所述语句解析为依存树;以及通过所述依存树模块,将所述方面术语特征H
α
、所述上下文嵌入X
c
和所述依存树组合为所述依存树图,其中,所述依存树图的每个节点具有与所述方面术语嵌入和所述上下文嵌入中的一者相对应的特征。3.根据权利要求1所述的系统,其中,所述计算机可执行代码包括多个图扩散变换器GDT层,所述多个GDT层中的第l GDT层被配置为通过以下步骤计算所述注意力矩阵:针对所述依存树图中的节点i和节点j计算注意力分数针对所述依存树图中的节点i和节点j计算注意力分数其中,和为可学习的权重,为节点i在第l GDT层的特征,||为拼接操作,σ1是ReLU激活函数,σ2是LeakyReLU激活函数;
通过来获得注意力分数矩阵S
(l)
;以及通过A
(l)
=softmax(S
(l)
)计算所述注意力矩阵A
(l)
。4.根据权利要求3所述的系统,其中,所述第l GDT层被配置为通过以下步骤计算所述图注意力扩散注意力:计算扩散注意力矩阵α∈(0,1],其中,hop为2至12范围内的正整数,θ
hop
为注意力衰减因子;以及计算所述图注意力扩散其中,H
(l)
为第l层的输入依存树图嵌入。5.根据权利要求4所述的系统,其中,所述第l GDT层被配置为通过以下等式来近似计算所述图注意力扩散Z
(k+1)
=(1

α)A
(l)
Z
k
+αH
(1)
;Z
(0)
=H
(l)
;以及其中,k是[0

K]范围内的整数。6.根据权利要求5所述的系统,其中,K是2至12范围内的正整数,以及l是2至24范围内的正整数。7.根据权利要求6所述的系统,其中,所述第l GDT层被配置为通过以下步骤获得独立树图的更新嵌入:将多个头的图注意力扩散进行拼接,以获得拼接注意力扩散其中,中的每一者与所述多个图注意力扩散中的一个图注意力扩散相对应,T为头的数量,d
h
为每个头的隐藏维度,d
h
=d/T;其中,和为可训练的矩阵,σ表示ReLU激活函数,H
(l+1)
为所述独立树图的所述更新嵌入。8.根据权利要求7所述的系统,其中,所述计算机可执行代码包括分类器,所述分类器被配置为通过以下等式对所述方面术语进行分类:
其中,和是可学习的权重矩阵,C为所述分类的类别数量,σ为tanh激活函数,是从所述更新嵌入H
(l+1)
中提取的方面术语嵌入,为的转置,d
out
为H
(l+1)
的维度。9.根据权利要求8所述的系统,其中,所述分类器被配置为通过以下等式计算所述损失函数:其中,λ是L2正则化的系数,θ是需要正则化的参数,y是所述方面术语的所述标签。10.根据权利要求9所述的系统,其中,所述计算机可执行代码还被配置为:接收查询语句和所述查询语句中的查询方面术语;将所述查询语句转换为查询依存树图;基于所述查询依存树图中多个节点中的任意两个节点之间的一跳注意力,计算所述查询依存树图的查询注意力矩阵;根据所述查询注意力矩阵计算查询图注意力扩散;使用所述查询图注意力扩散,获得所述查询依存树图的更新查询嵌入;基于所述查询依存树图的所述更新查询嵌入,对所述查询方面术语进行分类,以获得所述查询方面术语的预测分类;以及利用所述预测分类来对所述查询方面术语进行标记。11.一种方法,包括:通过计算设备接收具有方面术语和上下文的语句,所述方面术语具有分类标签;通过所述计算设备将所述语句转换为依存树图;通过所述计算设备,基于所述依存树图中所述多个节点中的任意两个节点之间的一跳注意力,计算所述依存树图的注意力矩阵;通过所述计算设备,基于所述注意力矩阵,根据所述依存树图中所述多个节点中的任意两个节点之间的多跳注意力计算图注意力扩散;通过所述计算设备,使用所述图注意力扩散获得所述依存树图的更新嵌入;通过所述计算设备,基于所述依存树图的所述更新嵌入对所述方面术语进行分类,以获得所述方面术语的预测分类;通过所述计算设备,基于所述方面术语的所述预测分类和所述方面术语的所述分类标签,计算损失函数;以及通过所述计算设备调整所述计算机可执行代码中的模型的参数。12.根据权利要求11所述的方法,其中,将所述语句转换为所述依存树图包括:嵌入所述方面术语以获得方面术语嵌入X
t
...

【专利技术属性】
技术研发人员:侯晓晨黄静王广涛何晓冬周伯文
申请(专利权)人:京东金融美国公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1