基于跨度共享和语法依存关系增强的情感三元组抽取方法技术

技术编号:31163804 阅读:19 留言:0更新日期:2021-12-04 10:36
本发明专利技术涉及情感分析技术领域,具体地说,涉及一种基于跨度共享和语法依存关系增强的情感三元组抽取方法,其包括以下步骤:一、通过编码器层获得特征表示;二、通过依赖图神经网络层增强语义表示;三、生成跨度并对过滤掉无效跨度;四、通过情感分类器完成分类。本发明专利技术能较佳地抽取三元组。较佳地抽取三元组。较佳地抽取三元组。

【技术实现步骤摘要】
基于跨度共享和语法依存关系增强的情感三元组抽取方法


[0001]本专利技术涉及情感分析
,具体地说,涉及一种基于跨度共享和语法依存关系增强的情感三元组抽取方法。

技术介绍

[0002]方面级情感分析是自然语言处理中的一个重要领域,其涉及到的核心对象为方面术语和观点术语。在评论句中,方面术语通常为被描述的属性或实体,其所表达的情感通常由观点术语来表示。目前,大多数方法是将方面级情感分析任务分解成多个独立的子任务来解决,如方面术语提取(AE),其目标是提取出一个句子中的所有方面术语。此外,观点术语抽取(OE)通常依赖给定的方面术语进行观点术语提取。然而,这些方法需要以流水线的方式组合在一起才能解决一个完整的ABSA任务,这种方式容易产生错误传播,并忽略方面术语和观点术语之间的依赖关系。
[0003]子任务间存在的依赖关系使得目前的研究重点转向了联合提取。在联合提取任务中,具有代表性的工作是方面

观点术语的成对提取任务(Pair),其目的是完成成对的方面术语和观点术语的提取。然而,这种成对抽取忽略了它们之间的情感表达关系,依然无法完整地解决方面及情感分析任务。
[0004]与上述所提到的子任务不同,情感三元组的抽取任务可以完整地解决方面级情感分析任务。然而由于这项任务需要提取方面术语和观点术语以及对应的情感表达,所以这项任务具有很大的挑战性。

技术实现思路

[0005]本专利技术的内容是提供一种基于跨度共享和语法依存关系增强的情感三元组抽取方法,其能够克服现有技术的某种或某些缺陷。
[0006]根据本专利技术的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:包括以下步骤:
[0007]一、通过编码器层获得特征表示;
[0008]二、通过依赖图神经网络层增强语义表示;
[0009]三、生成跨度并对过滤掉无效跨度;
[0010]四、通过情感分类器完成分类。
[0011]作为优选,步骤一中,选择BERT双向编码表征作为核心主干来学习上下文语义的表示;
[0012]给定一个输入句子S,在句子的开头添加cls全局上下文语义表征,在句子的末尾添加[SEP]句子结束标记,然后将序列S
x
={x
cls
,x1,...x
i
,...,x
n
,x
sep
}输入到BERT模型中;这些单词输入到BERT模型中得到单词的嵌入序列最后,得到输出的hidden layer隐藏层表示特征
[0013][0014]其中BERT(*)是cased

base

BERT模型,hidden layer隐藏层为12层。
[0015]作为优选,步骤二中,使用Standford

NLP工具来获得评论语句的句法依存关系树,根据输入句子的依存关系树的连接情况将依存关系树转化为一个M阶图结构,其中节点表示每一个词,边表示词之间的关系;M阶图结构可以表示为N*N的邻接矩阵A
ij
;当两个单词节点之间存在连接或者是单词本身时,将相应的邻接矩阵的值设置为1;否则,将其设置为0;公式如下:
[0016][0017]得到相应的邻接矩阵后,将其输入到GCN图卷积网络中;对于l层的节点i,特征表示作为输入,输出具有方面词和意见词之间的特征表示,定义如下:
[0018][0019]其中RELU为线性整流函数,W
l
是GCN第l层的训练权重,b
l
是当前权重的偏移值。
[0020]作为优选,步骤三中,将输出和BERT输出的隐藏层表示特征进行拼接,然后通过跨度生成器将h
j
映射到不同的跨度;
[0021]跨度Sp
i
={Index
start
,Index
start1
,...,Index
end
}中的Index
start
表示索引的开始,Index
end
表示索引的结束;Index
end

Index
start
≤L
s
,其中L
s
是跨度长度;
[0022]引入词嵌入E
k
,并为每个跨度分配了一个固定大小的嵌入,其中k是嵌入维度;词嵌入E
k
通过反向传播获得,是用于词嵌入的矩阵;此时跨度被重新定义为以下形式:
[0023][0024]其中:表示连接符号;h
start
和h
end
分别表示当前开始位置和结束位置的特征值,f表示最大池化函数;
[0025]跨度生成器中存在无效跨度,将无效跨度分类为Invalid类,并使用跨度分类器过滤掉分配给Invalid类的所有跨度;
[0026]将全局上下文语义特征cls与跨度进行最大池化的融合;
[0027]通过一个线性层Linear进行分类:
[0028]L
sp
=Linear(W
sp
(Sp
i
:cls)+b
sp
);
[0029]其中W
sp
的形状由隐藏层的大小和嵌入层E
k
的维度所决定,b
sp
是偏移量;L
sp
表示线性层的输出结果:
[0030]最后,通过softmax归一化指数函数对输出的结果进行归一化:
[0031][0032]y
sp
表示模型预测跨度中包含方面术语和观点术语的概率,是一个归一化的值[0

1];
[0033]通过交叉熵损失函数来判断实际输出与预期输出之间的接近程度:
[0034][0035]概率分布ρ是模型预测的概率分布,概率分布q是实际样本的概率分布。
[0036]作为优选,步骤四中,利用情感分类器对候选跨度进行处理时,采用局部上下文语义下标表示选中的跨度的两个跨度的起始位置,并通过最大池化层进行融合:
[0037][0038]丁表示最大池化层,表示从第i个单词到第j个单词的局部上下文内容,k表示第几个局部上下文;如果两个跨度是重叠的,则接下来,将候选跨度对与局部上下文拼接起来:
[0039][0040]I表示输入,rep表示具有代表性的跨度特征。
[0041]作为优选,利用情感分类器对候选跨度进行处理时,需要限制代表性跨度的数量;跨度候选对的组合是Sp
rep
*Sp
rep
,所以需要将跨度大小限制为:
[0042][0043]Total
sp
表示具有代表性的跨度总个数;β表示为候选对的最大数量;在限制候选的同时,引入α来扩充候选词;最后,通过一个分类器输出正确的情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:包括以下步骤:一、通过编码器层获得特征表示;二、通过依赖图神经网络层增强语义表示;三、生成跨度并对过滤掉无效跨度;四、通过情感分类器完成分类。2.根据权利要求1所述的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:步骤一中,选择BERT双向编码表征作为核心主干来学习上下文语义的表示;给定一个输入句子S,在句子的开头添加cls全局上下文语义表征,在句子的末尾添加[SEP]句子结束标记,然后将序列S
x
={x
cls
,x1,...x
i
,...,x
n
,x
sep
}输入到BERT模型中;这些单词输入到BERT模型中得到单词的嵌入序列最后,得到输出的hidden layer隐藏层表示特征layer隐藏层表示特征其中BERT(*)是cased

base

BERT模型,hidden layer隐藏层为12层。3.根据权利要求2所述的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:步骤二中,使用Standford

NLP工具来获得评论语句的句法依存关系树,根据输入句子的依存关系树的连接情况将依存关系树转化为一个M阶图结构,其中节点表示每一个词,边表示词之间的关系;M阶图结构可以表示为N*N的邻接矩阵A
ij
;当两个单词节点之间存在连接或者是单词本身时,将相应的邻接矩阵的值设置为1;否则,将其设置为0;公式如下:得到相应的邻接矩阵后,将其输入到GCN图卷积网络中;对于l层的节点i,特征表示作为输入,输出具有方面词和意见词之间的特征表示,定义如下:其中RELU为线性整流函数,W
l
是GCN第l层的训练权重,b
l
是当前权重的偏移值。4.根据权利要求3所述的基于跨度共享和语法依存关系增强的情感三元组抽取方法,其特征在于:步骤三中,将输出和BERT输出的隐藏层表示特征进行拼接,然后通过跨度生成器将h
j
映射到不同的跨度;跨度Sp
i
={Index
start
,Index
start 1
,

,Index
end
}中的Index
start
表示索引的开始,Index
end
表示索引的结束;Index
end

Index
start
≤L
s
,其中L
s
是跨度长度;引入词嵌入E
k
,并为每个跨度分配了一个固定大小的嵌入,其中...

【专利技术属性】
技术研发人员:李优林涌东常亮林煜明
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1