一种基于多模态互注意融合的渐进式多任务情感分析方法技术

技术编号:34900351 阅读:63 留言:0更新日期:2022-09-10 14:04
本发明专利技术公开了一种基于多模态互注意融合的渐进式多任务情感分析方法,该方法基于多模态数据相融共生的特点,设计全视角闭环互注意融合模块,融合模块级内提出闭环互注意多模态融合网络,级间提出全视角分级融合机制,增强多模态数据的融合效果;针对复杂语境下单模态个性语义缺失、个性与共性语义无法协同的问题,提出渐进式多任务情感分析框架,框架第一层多模态融合子任务挖掘多模态共性语义,单模态子任务保留单模态个性语义,然后提出双重决策融合策略从第二层高层特征和第三层决策两个维度增强子任务间的交互,增强多模态情感分析算法的适应复杂语境的能力,在CH

【技术实现步骤摘要】
一种基于多模态互注意融合的渐进式多任务情感分析方法


[0001]本专利技术属于自然语言处理领域,特别是涉及一种基于多模态互注意融合的渐进式多任务情感分析方法。

技术介绍

[0002]情感分析技术通过智能分析数据进而预测其中体现出的情感倾向,在社会舆情挖掘、企业信息分析等领域具有重要的现实意义和应用价值。在社会舆情挖掘方面,通过分析大众对社会热点的点评可以有效掌握舆论走向,保持健康和谐网络环境;在企业信息分析方面,通过分析社会对企业的评价,为企业的战略规划提供决策依据,提升企业竞争力。随着智能终端的大量普及,爆炸性增长的多模态数据为多模态情感分析奠定了坚实的数据基础,基于深度学习的多模态情感分析算法相比与单模态情感分析算法和基于传统特征的情感分析算法进一步提升了分析效果。
[0003]基于深度学习的多模态情感分析算法虽然可以在一定程度上提升分析效果,但是仍然存在一些问题。多模态融合过程中,多模态数据融合角度、深度有限,导致模态间的交互性和关联性不足,融合特征情感倾向可能存在偏差。仅分析多模态情感倾向的单任务多模态情感分析算法单纯的追求多模态共性表达,导致单模态个性语义缺失。仅有的多任务情感分析算法中单模态情感分析任务和多模态情感分析任务相互独立,导致彼此间相互促进和制约关系没有得到充分利用,模态间个性和共性语义无法兼顾。现实场景的情感表达是复杂多样的,有的热烈张扬、有的含蓄内敛、有的存在隐喻反讽,在这种语境相对复杂的情况下,目前的多模态情感分析算法的分析效果不好。

技术实现思路

[0004]针对目前基于深度学习的多模态情感分析算法,本专利技术提供了一种基于多模态互注意融合的渐进式多任务情感分析方法。
[0005]本专利技术采用如下技术方案来实现:
[0006]一种基于多模态互注意融合的渐进式多任务情感分析方法,包括以下步骤:
[0007]1)待分析的音频、文本和视觉三种模态特征输入到数据预处理模块,去除各单模态特征中的冗余信息、进行数据规范化,得到三种模态预处理特征;
[0008]2)将三种模态预处理特征输入到渐进式多任务情感分析框架,框架的第一层任务是并行的三个单模态和一个多模态融合情感分析子任务,三种模态预处理特征分别输入到第一层中的单模态情感分析子任务得到单模态情感决策,一起输入到多模态融合情感分析子任务,由多模态融合模块进行三种模态特征融合得到多模态融合特征,根据融合特征得到多模态融合情感决策,第一层子任务的高层特征和情感决策作用于双重决策融合模块;
[0009]3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务,第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合,利用单模态语义差异补充多模态融合语义,得到高层特征融合情感决策,第三层子任务从决策维度上均衡前两
层子任务的情感决策得到最终的情感分析结果。
[0010]本专利技术进一步的改进在于,步骤1)中,文本特征的上下文场景对文本语义具有更为重要的意义,音频和视觉的特征值冗余信息比较多,根据不同模态的数据特性设计不同的单模态特征处理子网络,视觉与音频特征预处理子网络结构相似,单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。
[0011]本专利技术进一步的改进在于,步骤2)中,单模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策,各单模态情感分析子任务网络设计相似,均为由tanh激活的三层全连接网络层构成,三种单模态预处理特征一起输入多模态融合情感分析子任务,首先通过设计的全视角闭环互注意融合模块,然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策。
[0012]本专利技术进一步的改进在于,为了取得文本上下文词向量的长期依赖关系,文本特征预处理子网络首先采用LSTM网络处理文本特征,接着设计dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止文本特征预处理子网络过拟合,然后由tanh激活的全连接层增加文本特征处理子网络的非线性,利用BN层对文本特征数据进行归一化处理得到文本预处理特征,视觉、音频特征预处理子网络的相似,以音频预处理子网络的设计为例:首先通过时序取均值去除部分信息冗余,添加dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止音频特征预处理子网络过拟合,然后由tanh激活的全连接层增加音频特征处理子网络的非线性,利用BN层对音频特征数据进行归一化处理得到音频预处理特征。
[0013]本专利技术进一步的改进在于,三种单模态预处理特征输入到全视角闭环互注意融合模块,首先经过多模态特征融合阶段的两级多模态闭环互注意结构,每一级包括3个跨模态注意力融合机制,包括transV(
·
)、transA(
·
)、transT(
·
)分别代表视频、音频、文本引导的跨模态注意力融合机制,3个跨模态注意力融合机制网络结构相似,三种单模态预处理特征经过融合顺序为transV1(
·
)~transA1(
·
)~transT1(
·
)的第一级多模态闭环互注意结构,先通过transV1(
·
)进行视频预处理特征I
v
和文本预处理特征I
t
的跨模态融合生成视频

文本融合特征transV1(
·
)先通过全连接网络将I
v
映射成视频查询向量Q,将I
t
映射成文本关键向量K和文本值向量V,transV1(
·
)实现视频文本跨模态融合的具体流程采用式(1)

(4)表示:
[0014]π=Q
·
K
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0015][0016]π'=softmax(π+mask)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0017][0018]接着通过transA1(
·
)利用音频预处理特征约束视频

文本融合特征得到音频

视频

文本融合特征,然后将文本预处理特征和音频

视频

文本融合特征输入到transT1(
·
)生成文本

视频

音频

文本的闭环互注意融合特征,第一级多模态闭环互注意结构采用式
(5)

(7)表示:
[0019][0020][0021][0022]其中I
v
、I
a
、I
t
分别表示视频、音频、文本预处理特征,分别表示transV(
·
)、transA(
·
)、transT(
·<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,包括以下步骤:1)待分析的音频、文本和视觉三种模态特征输入到数据预处理模块,去除各单模态特征中的冗余信息、进行数据规范化,得到三种模态预处理特征;2)将三种模态预处理特征输入到渐进式多任务情感分析框架,框架的第一层任务是并行的三个单模态和一个多模态融合情感分析子任务,三种模态预处理特征分别输入到第一层中的单模态情感分析子任务得到单模态情感决策,一起输入到多模态融合情感分析子任务,由多模态融合模块进行三种模态特征融合得到多模态融合特征,根据融合特征得到多模态融合情感决策,第一层子任务的高层特征和情感决策作用于双重决策融合模块;3)双重决策融合模块包括渐进式多任务情感分析框架的第二层和第三层子任务,第二层子任务在特征维度上对第一层子任务高层特征进行拼接融合,利用单模态语义差异补充多模态融合语义,得到高层特征融合情感决策,第三层子任务从决策维度上均衡前两层子任务的情感决策得到最终的情感分析结果。2.根据权利要求1所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,步骤1)中,文本特征的上下文场景对文本语义具有更为重要的意义,音频和视觉的特征值冗余信息比较多,根据不同模态的数据特性设计不同的单模态特征处理子网络,视觉与音频特征预处理子网络结构相似,单模态特征分别输入各单模态特征预处理子网络得到单模态预处理特征。3.根据权利要求2所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,步骤2)中,单模态预处理特征分别输入到单模态情感分析子任务得到单模态情感分析决策,各单模态情感分析子任务网络设计相似,均为由tanh激活的三层全连接网络层构成,三种单模态预处理特征一起输入多模态融合情感分析子任务,首先通过设计的全视角闭环互注意融合模块,然后由tanh激活的两层全连接网络层进行特征降维得到多模态融合情感分析决策。4.根据权利要求2所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,为了取得文本上下文词向量的长期依赖关系,文本特征预处理子网络首先采用LSTM网络处理文本特征,接着设计dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止文本特征预处理子网络过拟合,然后由tanh激活的全连接层增加文本特征处理子网络的非线性,利用BN层对文本特征数据进行归一化处理得到文本预处理特征,视觉、音频特征预处理子网络的相似,以音频预处理子网络的设计为例:首先通过时序取均值去除部分信息冗余,添加dropout层使神经元的激活值以一定的概率停止工作,减小模型对局部特征的依赖,防止音频特征预处理子网络过拟合,然后由tanh激活的全连接层增加音频特征处理子网络的非线性,利用BN层对音频特征数据进行归一化处理得到音频预处理特征。5.根据权利要求3所述的一种基于多模态互注意融合的渐进式多任务情感分析方法,其特征在于,三种单模态预处理特征输入到全视角闭环互注意融合模块,首先经过多模态特征融合阶段的两级多模态闭环互注意结构,每一级包括3个跨模态注意力融合机制,包括transV(
·
)、transA(
·
)、transT(
·
)分别代表视频、音频、文本引导的跨模态注意力融合机制,3个跨模态注意力融合机制网络结构相似,三种单模态预处理特征经过融合顺序为
transV1(
·
)~transA1(
·
)~transT1(
·
)的第一级多模态闭环互注意结构,先通过transV1(
·
)进行视频预处理特征I
v
和文本预处理特征I
t
的跨模态融合生成视频

文本融合特征transV1(
·
)先通过全连接网络将I
v
映射成视频查询向量Q,将I
t
映射成文本关键向量K和文本值向量V,transV1(
·
)实现视频文本跨模态融合的具体流程采用式(1)

(4)表示:π=Q
·
K
T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)π'=softmax(π+mask)...

【专利技术属性】
技术研发人员:贺丽君王子晴李凡
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1