【技术实现步骤摘要】
基于知识增强的跨语言结构化情感分析方法
[0001]本专利技术涉及一种结构化情感分析方法。
技术介绍
[0002]随着社交媒体的持续升温,无论是用户还是其生产内容,都以爆炸式速度增长,它从根本上改变着社会大众以及企业对信息的接受和传播方式。在新闻日均千万级的大数据面前,结构化情感分析是一件非常有意义的工作。例如:一位媒体工作者,可以根据网上大量有关电影的评论,训练情感分析模型来了解人们喜欢和不喜欢的电影;一位投资工作者,可以构建有助于股票市场预测的模型,通过人们在论坛中的留言来评估他们对股票的乐观程度;一位政府工作者,通过情感分析模型可以评估人们看推特演讲时情感变化,以分析他们对演讲内容的爱憎程度。为此,结构化情感分析被提出,可以识别用户在社交平台上对财经新闻、体育、天气、娱乐等实时事件表达的情感,对许多应用是至关重要的。
[0003]具体地,结构化情感分析是指对文本中结构化知识(例如目标、观点词、持有人等)进行抽取并预测其情感,是自然语言处理(Natural Language Processing,NLP)领域中的一个重要研究方向。该任务包含了结构化抽取和情感分析两个子任务。首先,结构化抽取任务从文本中自动抽取出主体以及各个组成部分,并给出各部分之间存在的关系。随后,对于给定的结构化数据,预测其对应的情感。它依赖于实体抽取和关系抽取,但相较于实体抽取和关系抽取难度更大,其中涉及到自然语言处理、机器学习、模式匹配等多个学科的方法与技术。近年来,随着深度神经网络的发展,特别是大规模预训练方法的广泛应用,结构化情
【技术保护点】
【技术特征摘要】
1.一种基于知识增强的跨语言结构化情感分析方法,其特征在于,采用源语言的训练语料其标签是观点元组集合其中,表示样本数目,表示样本包含观点元组数目;观点元组集合中第k个观点元组o
k
=(h
k
,t
k
,e
k
,p
k
),表示第k个观点元组o
k
的持有人h
k
通过观点词e
k
对目标t
k
表达情感极性p
k
,其中:,其中:,其中:是训练语料中第j个句子x
j
的子串,的子串,分别为持有人h
k
、目标t
k
、观点词e
k
在句子x
j
中的开始位置,分别为句子x
j
中位置处的词,分别为持有人h
k
、目标t
k
、观点词e
k
在句子x
j
中的结束位置,分别为句子x
j
中位置处的词,则所述跨语言结构化情感分析方法具体包括以下步骤:步骤S101、构建并训练对抗嵌入适配器,在构建对抗嵌入适配器时,设计词注意力机制,以捕捉在不同的语料库上以不同的训练策略和任务预训练的多个嵌入的重要隐式分布式语义,然后采用对抗性训练策略来提高词嵌入的稳健性;训练对抗嵌入适配器时,获得由个跨语言预训练模型组成的集合将训练语料中的每句句子输入集合的个跨语言预训练模型,从而获得每句句子的词嵌入向量;对于训练语料中任意一句句子而言,通过词级别的注意力机制来融合使用个跨语言预训练模型获得的词嵌入向量,从而获得每句句子所对应的最终词嵌入向量,最后在最终词嵌入向量中加入扰动;步骤S102、构建并训练语法GCN编码器:获得训练语料中每个句子的句法分析树,基于句法分析树为每个句子构建一个图,再计算得到图的出入度矩阵,根据图以及出入度矩阵获得语法GCN编码器;将步骤S101获得的添加扰动后的词嵌入向量输入语法GCN编码器后得到统一空间的结构化表示,从而获得了信息丰富且稳健的结构性隐藏表征;步骤S103,构建并训练解码器:基于信息丰富且稳健的结构性隐藏表征,通过预测观点词的开始和结束位置来提取观点词,将这些观点词视为每个观点的触发词;然后,提取目标和持有人,并预测对给定表达的情感极性;步骤S104、对于实时获得的任意一句句子x,利用训练后的对抗嵌入适配器获得添加扰动后的词嵌入向量后,再将该词嵌入向量输入训练后的语法GCN编码器得到句子x中各单词的隐层表示,最后利用训练后的解码器提取句子x中包含的所有观点元组。2.如权利要求1所述的一种基于知识增强的跨语言结构化情感分析方法,其特征在于,所述步骤S101具体包括以下步骤:步骤S1011、获得训练语料中第j个句子x
j
的词嵌入向量,包括以下步骤:将句子x
j
分别输入个跨语言预训练模型后获得个不同的词嵌入向量,其中,将句子x
j
输入第i个跨语言预训练模型M
i
后获得的词嵌入向量表示为后获得的词嵌入向量表示为式中,式中,表示句子x
j
中第l个单词w
l
通过跨语言
预训练模型M
i
获得的词嵌入,|x
j
|表示句子x
j
中单词的总数;通过词级别的注意力机制来融合基于句子x
j
获得的个不同的词嵌入向量,从而得到最后的词嵌入向量E
j
,其中,e
l
为词嵌入向量E
j
中第l个词嵌入,则有:入,则有:式中,v
a
、W
a
及b
a
为可训练参数,表示v
a
的转置矩阵;步骤S1012、设表示对于句子x
j
的扰动,其中,r
l
表示对于句子x
j
中第l个单词的词嵌入e
l
的扰动;句子x
j
添加扰动r
j
后表示为进一步用表示,则有其中,通过以下方法获得对于句子x
j
的最差扰动的最差扰动使用估计的方法来计算有:有:式中,g是|x
j
|个g
l
的拼接,表示对于词嵌入e
l
的梯度计算,‖
·
‖2表示L2范数,l(
·
)表示对于第j个样本的loss,∈为用来控制扰动程度的参数;基于对抗扰动对抗训练最小化极大似然性从而获得对于句子x
j
...
【专利技术属性】
技术研发人员:张旗,杨向东,冯石路,
申请(专利权)人:东方财富信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。