【技术实现步骤摘要】
一种基于模态交互多任务学习的多模态情感分析方法
[0001]本专利技术公开一种基于模态交互多任务学习的多模态情感分析方法,涉及自然语言处理
。
技术介绍
[0002]随着信息时代的发展,用户在线上生成的内容越来越多,其中包含了文本
、
语音
、
图像模态等数据,分析和研究多模态数据的情感极性,对改善和提升信息时代的人与机器或者机器与机器交互环境起着重要作用
。
多模态情感分析近年来引起越来越多的关注,与单模态情感分析相比,多模态情感分析研究多个模态间的互相补充和增强,在处理社交媒体数据时,效果取得了显著的提升
。
[0003]传统的情感分析方法仅使用某一种模态信息作为分析对象,如:基于文本的情感分析,基于语音的情感分析等
。
视频数据中的文本
、
语音和视觉模态源于多个异构源,三者差异较大
。
因此,如何将不同模态信息进行融合,充分利用其互补信息,是多模态情感分析的核心难点问题
。
此外,目前的多模态情感分析方法大多只专注于模态的融合方式,而忽略了并非所有模态信息都是有用的,可能对情感分析起到负面影响;而且目前大多数模型基于端到端的模型,导致模型相对复杂且开销时间大
。
技术实现思路
[0004]本专利技术目的在于克服上述现有技术存在的缺陷而提供一种基于模态交互多任务学习的多模态情感分析方法,并且在多模态情感分析方面取得了理想的效果,能有效的提升多模态 ...
【技术保护点】
【技术特征摘要】
1.
一种基于模态交互多任务学习的多模态情感分析方法,其特征在于,包括下列步骤:
S1、
对视频进行预处理:从视频中得到相应文本;从视频中分离出音频,并对音频进行转录;对视频进行分帧处理
、
对视频帧进行人脸检测与对齐处理;
S2、
从预处理后的数据中获取单模态原始特征:利用预先训练的工具包提取出音频特征和视频特征;
S3、
基于单模态原始特征,进一步提取单模态特征表示,包含文本特征表示,音频特征表示,视频特征表示;
S4、
根据多模态数据以文本为主导模态的特点,构造基于神经网络模型的多任务学习框架;
S5、
多模态情感分析任务采用了一种经典的多模态情感分析架构,包含了特征表示模块,特征融合模块和输出模块三个模块,特征表示模块获取单模态特征后,将三种单模态特征表示进行拼接并投影到一个低维空间,最后用多模态融合的特征表示来进行预测多模态情感;
S6、
子任务部分将之前得到的单模态特征表示投影到一个新的特征空间中,将文本模态与非文本模态交互,学习文本模态于非文本模态的信息,进而有效提升多模态任务的结果
。2.
如权利要求1所述的一种基于模态交互多任务学习的多模态情感分析方法,其特征在于,所述步骤
S3
的具体包括以下步骤:
S31、
对原始文本特征,使用预先训练的
12
层
BERT
来提取文本的特征表示,根据经验,选择最后一层的第一个词向量作为整个句子的表示;
S32、
对原始音频特征,使用一个单向长短时记忆神经网络来获取音频的特征表示,用最后的隐藏层向量作为全序列表示;
S33、
对原始视频特征,使用一个单向长短时记忆神经网络来获取视频的特征表示,用最后的隐藏层向量作为全序列表示
。3.
如权利要求2所述的一种基于模态交互多任务学习的多模态情感分析方法,其特征在于,所述文本特征表示
、
音频特征表示
、
视频特征表示具体分别为:其中,
F
t
表示文本模态特征表示,为原始文本信息
I
t
经过
BERT
提取的文本特征表示中选择的词向量;
θ
tbert
为文本模态特征表示提取过程中所用的权重参数;
d
t
’
为
BERT
最后一层的维度;其中,
F
a
表示音频模态特征表示,为原始的语音特征
I
a
经过
LSTM
获取音频的特征表示;为音频模态特征表示提取过程中所用的权重参数;
d
a
’
为
LSTM
的隐藏层维度;其中,
F
v
表示视频模态特征表示,为原始的视觉特征
I
v
经过
LSTM
获取视频的特征表示;为视频模态特征表示提取过程中所用的权重参数;
d
v
’
为
LSTM
的隐藏层维度
。4.
如权利要求1所述的一种基于模态交互多任务学习的多模态情感分析方法,其特征
在于,所述
S4
的具体实现包括:多任务学习框架包括两个部分,分别为一个多模态任务和两个学习文本模态与非文本模态间信息的子任务:其中子任务结合了多模态数据以文本为主导模态的特点,学习文本模态与非文本模态间的信息,用于指导最终的多模态情感分析...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。