当前位置: 首页 > 专利查询>厦门大学专利>正文

一种基于语法结构与连接信息触发的复杂句情感分析方法技术

技术编号:32919372 阅读:41 留言:0更新日期:2022-04-07 12:10
一种基于语法结构与连接信息触发的复杂句情感分析方法,涉及自然语言处理。包括以下步骤:1)构建连词信息触发的情感层次模型;2)使用迁移学习方法对子句子编码器进行预训练;3)情感划分模块将复杂句子划分为多个简单的情感模块;4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合。可以准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。当一个句子中出现多种情感共现时,可以准确找到复杂句中重要的情感部分。部分。部分。

【技术实现步骤摘要】
一种基于语法结构与连接信息触发的复杂句情感分析方法


[0001]本专利技术涉及自然语言处理,尤其是涉及一种基于语法结构与连接信息触发的复杂句情感分析方法。

技术介绍

[0002]复杂句占据了社交网络平台和现有情感数据集的很大一部分。不同于简单句,复杂句往往由两个或两个以上的非从属主谓结构组成,表达多个相互关联且较为完整的意义,有时中间有小停顿(通常用分号、逗号等标点符号表示),或有特定的连接词,在句子前后形成较大的停顿。这些句子往往有多种情感的共现,次要的情感表达/单词有时会变成噪音(如表1所示),导致模型做出错误判断,因此需要有针对性的研究。
[0003]表1
[0004][0005]尽管之前的工作在一些基准数据集上取得了很好的结果,但少有研究分析如何高效的使用深度学习来进行复杂句的情感分析。在深度学习中,现有的工作倾向于将简单句和复杂句作为一个整体进行研究,这可能导致复杂句中情感信息的丢失。总的来说,与简单句子相比,复杂的语义关系和多种情感的共现使复杂句子的情感分析变得困难。

技术实现思路

[0006]本专利技术的目的在于针对现有技术在复杂语义关系和多种情感共现的复杂句子情感分析上存在的预测效果不佳等问题,提供一种基于语法结构与连接信息触发的复杂句情感分析方法。本方法采用连词信息触发的情感层次模型(Connection Information

Triggered Sentiment Hierarchical Model,CITSHM),该模型使用连接信息(标点符号或连接词)来模拟复杂句的情感极性。
[0007]本专利技术包括以下步骤:
[0008]1)构建连词信息触发的情感层次模型;
[0009]2)使用迁移学习方法对子句子编码器进行预训练;
[0010]3)情感划分模块将复杂句子划分为多个简单的情感模块;
[0011]4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;
[0012]5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合。
[0013]在步骤1)中,所述连词信息触发的情感层次模型由4个主要模块构成,分别为情感
划分模块、子句编码器、句子编码器、连接信息触发的注意力机制(CTAM);情感划分模块用于负责对复杂长句进行情感模块划分;所述子句编码器用于对每个情感模块进行编码;所述句子编码器用于获取每个情感模块的上下文信息,并进行文本序列上的融合;所述连接信息触发的注意力机制用于利用连接信息进行多个情感模块的融合,并突出主要极性;所述连接信息包括标点符号或连接词。
[0014]在步骤2)中,所述迁移学习方法,是将简单句的知识应用于复杂句;对于中文,使用现有的微博情感数据集来对子句编码器(预训练语言模型)进行再次训练,微博情感数据集由简单句组成;复杂句中的每个情感模块都可以被类比为一个只有单一情感表达的简单句,经过预训练后,预训练语言模型可以更好地捕捉到单个情感模块的情感信息。
[0015]在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块,是利用复杂句的连接词与标点符号,将复杂句子划分为多个情感模块,每个情感模块通常包含直接和单一的情感表达;
[0016]所述情感划分模块将复杂句子划分为多个简单的情感模块的具体步骤包括:
[0017](1)输入复杂长句S={w1,

,w
i
,

,w
n
},其中w
i
代表第i个字符;
[0018](2)收集中文和英文语料库中常用的连词和标点符号,并将它们作为连接信息编入字典;当一个复杂句包含字典中的连接信息T时,复杂句S由该信息连接的两个部分将被划分为两个单独的情感模块;最终S通常被划分为多个情感模块S

={M1,M2,

,M
k
},其中M
i
={w
p
,

,w
q
},以及连接信息T={t1,t2,

,t
k
‑1}。
[0019]在步骤4)中,所述子句编码器对每个情感模块单独进行编码,分别生成情感表达的具体步骤可为:
[0020]使用子句编码器的预训练语言模型(BERT)来提取每个情感模块的表征为了选择句子中比较重要的情感模块,使用句子编码器的时间序列模型(BI

LSTM)来捕捉情感模块间的交互信息;
[0021][0022]H
m
=TimeModel(F
m
;θ
tim
)(2)
[0023]其中,θ代表模型参数,代表第i个情感模块的表征。
[0024]最后,使用池化的方法来融合所有的情感模块,生成整个复杂句的表示F
s

[0025][0026]在步骤5)中,所述句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合的具体步骤可为:
[0027]使用额外的预训练语言模型对复杂句中的每一个连接信息进行编码,得到第i个连接信息的表征并使用全局最大池化获取连接信息的表示F
o

[0028][0029][0030]基于连接信息触发的注意力机制结合句子本身的语义信息来融合复杂句中所有的情感信息,并突出句子中主要的情感极性,最终得到句子基于连词信息的表征F
s


[0031][0032][0033][0034]其中,a
i
代表连接信息和第i个情感模块求得的注意力分数;α
i
是经过SoftMax操作后的结果。
[0035]在得到了句子本身的表征F
s
以及基于连词的表征F
s

之后,将这两种表征进行有机的结合,获得了复杂句最终的表征F
z

[0036]将得到的句子表征和基于连接信息的表征连接起来,并将他们投射到一个低维空间
[0037][0038]其中,是线性层权重,ReLU是激活函数;
[0039][0040]最后,融合表征F
z
被用来预测输入句子的情感极性;其中,是线性层的权重;是模型的输出,即为预测的情感极性。
[0041]与现有技术相比,本专利技术具有以下优点:
[0042]本专利技术采用连词信息触发的情感层次模型(Connection Information

Triggered Sentiment Hierarchical Model,CITSHM),该模型使用连接信息(标点符号或连接词)来模拟复杂句的情感极性。本专利技术可以准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。当一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于包括以下步骤:1)构建连词信息触发的情感层次模型;2)使用迁移学习方法对子句子编码器进行预训练;3)情感划分模块将复杂句子划分为多个简单的情感模块;4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合。2.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤1)中,所述连词信息触发的情感层次模型由4个主要模块构成,分别为情感划分模块、子句编码器、句子编码器、连接信息触发的注意力机制;情感划分模块用于负责对复杂长句进行情感模块划分;所述子句编码器用于对每个情感模块进行编码;所述句子编码器用于获取每个情感模块的上下文信息,并进行文本序列上的融合;所述连接信息触发的注意力机制用于利用连接信息进行多个情感模块的融合,并突出主要极性。3.如权利要求2所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于所述连接信息包括标点符号或连接词。4.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤2)中,所述迁移学习方法,是将简单句的知识应用于复杂句;对于中文,使用现有的微博情感数据集来对子句编码器进行再次训练,微博情感数据集由简单句组成;复杂句中的每个情感模块都可以被类比为一个只有单一情感表达的简单句,经过预训练后,子句编码器能更好地捕捉到单个情感模块的情感信息。5.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块,是利用复杂句的连接词与标点符号,将复杂句子划分为多个情感模块,每个情感模块通常包含直接和单一的情感表达。6.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块的具体步骤包括:(1)输入复杂长句S={w1,

,w
i


,w
n
},其中w
i
代表第i个字符;(2)收集中文和英文语料库中常用的连词和标点符号,并将它们作为连接信息编入字典;当一个复杂...

【专利技术属性】
技术研发人员:陈少杰曹冬林林达真
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1