【技术实现步骤摘要】
基于文本指导的层级自适应融合的多模态情感分析方法
[0001]本专利技术涉及基于文本指导的层级自适应融合的多模态情感分析方法,属于自然语言处理领域。
技术介绍
[0002]随着互联网技术的发展,近年来,抖音、快手等社交媒体交流方式得到较快发展。越来越多的用户选择使用视频来表达自己的观点和情感,这些视频提供了大量的多模态数据。多模态情感分析(Multimodal Sentiment Analysis,MSA)也因此受到越来越多的关注,相关的研究已经被广泛应用到各个领域,例如社交媒体舆情监督、个性化推荐等。因此,多模态情感分析具有重要的研究意义和应用价值。
[0003]多模态情感分析不仅要充分表征单模态信息,还要考虑不同模态特征之间的交互与融合。Zadeh等人提出了张量融合网络(Tensor Fusion Network,TFN),同时提出了一种记忆融合网络(Memory Fusion Network,MFN),该网络使用LSTM来学习特定于视图的交互作用。Tsai等人提出了跨模态变换器,该变换器学习跨模态注意以强化目标模态。Yu等人引入了单峰子任务,以帮助模态表征学习。
[0004]尽管这些方法在多模态情感分析领域取得了一定的成功。但在以往的研究中,多模态融合方法通常将三种模态特征看作同等重要,侧重于多模态特征的融合,忽略不同模态对最终的情感分析结果的贡献,对模态重要性信息利用不足,这样可能会造成模态中重要信息的丢失,影响多模态情感分析性能。
技术实现思路
[0005]本专利技术提供了基 ...
【技术保护点】
【技术特征摘要】
1.基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述方法的具体步骤如下:Step1、准备数据集,对公共数据集数据进行预处理;Step2、将处理好的数据输入到基于文本指导的层级自适应融合模型,通过特征表示模块对文本、语音、视觉三种模态信息进行表征;通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征;通过全局多模态交互模块采用门控机制过滤模态相关特征获得模态特有特征;通过局部
‑
全局特征融合模块对模态相关特征和模态特有特征进行有效的融合。2.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step1的具体步骤为:Step1.1、下载CMU
‑
MOSI数据集,其中CMU
‑
MOSI数据集包括2199个简短的独白视频剪辑,每个视频片段利用人工对其进行情感分数注释,情感分数取值为[
‑
3,+3],代表情感强度的极性从极负向到极正向;其中CMU
‑
MOSI训练、验证和测试集分别包含1284、229、686个视频片段;然后通过预处理形成pkl格式文件。3.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step2中,通过特征表示模块对文本、语音、视觉三种模态信息进行表征具体包括:Step2.1、多模态语言序列涉及三种模态:文本模态T、语音模态A和视觉模态V,定义输入序列为其中,l
{t,a,v}
表示模态的序列长度;采用三个独立的子网络获取三种模态的特征表示;对于文本模态,使用预训练的12层BERT来提取句子表征,并将最后一层中的第一个单词向量作为整个句子的表示;利用BERT获得文本模态的特征表示,文本模态特征表示如下:H
t
=BERT(F
t
,θ
bert
)其中,H
t
表示文本模态特征,l
t
表示文本模态的序列长度,d
t
表示文本模态的特征维度,θ
bert
为BERT模型的网络参数;对于语音模态和视觉模态,使用单向LSTM来获取两种模态相对应的时间特征,采用最后一层的隐藏时刻状态作为整个序列的表示;F
a
,F
v
分别通过单向LSTM,得到语音模态特征表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:表示和视觉模态特征表示,语音模态和视觉模态的特征表示如下:其中,表示语音模态特征,表示视觉模态特征,l
a
,l
v
分别表示语音模态和视觉模态的序列长度,d
a
,d
v
分别表示语音模态和视觉模态的特征维度,θ
lstm
为LSTM模型的网络参数。4.根据权利要求1所述的基于文本指导的层级自适应融合的多模态情感分析方法,其特征在于:所述Step2中,所述通过局部跨模态特征交互模块对获得的文本、语音、视觉三种特征提取模态相关特征具体包括:Step2.2、利用跨模态注意力机制学习文本模态与非文本模态之间的相关性;当有两种
模态视觉模态V和文本模态T,特征表示为H
v
、H
t
,文本模态到视觉模态的跨模态注意力Cross
‑
Modal Attention,CM表示如下:其中,为线性变换权重矩阵,d
k
表示Q和K向量的维度,d
V
表示V向量的维度,利用两个跨注意力模块获得文本对语音,文本对视觉的两组模态交互特征,此时由文本模态特征H
t
提供K和V向量,由语音模态特征H
a
,视觉模态特征H
v
分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。