【技术实现步骤摘要】
一种基于自适应互信息和层次化Transformer的多模态情感分析方法
[0001]本专利技术涉及文本、视频和音频等多模态数据分析、处理与识别
,具体领域为一种基于自适应互信息和层次化Transformer的多模态情感分析方法。
技术介绍
[0002]情感在日常的人际交往中起着至关重要的作用。多模态情感分析作为一种智能情感分析技术,可以从多种输入信号(例如,语音、文本、视频等)中识别和检测人类的情绪状态,弥补人类和计算机之间通信之间的差距。
[0003]多模态情感分析的关键步骤是多模态融合,其目的是弥补多种输入模态数据之间的异质性差距,并为下游任务提取跨模态的统一特征表示。然而,如何有效地融合不同模态的情感特征仍是一个未能有效解决的问题,这可能是因为不同模态的输入数据既不是绝对独立的,也不是绝对相关的,导致捕获跨模态统一特征表示具有极大的挑战。
[0004]尽管目前采用各种简单连接特征的融合机制在学习统一特征表示时获得了显著的效果(见专利:宋彦,张勇东,陈伟东等.一种基于变分跨模态表征的实时弹幕情感分析方法
‑
申请号/专利号:CN202310574093.8),但是不同模态之间的相互作用仍在很大程度上未得到充分的探索。此外,不同模态序列数据由于采样率不同通常是异步的,在实际场景中收集到的多模态序列数据往往表现出固有的非对齐特征。例如,一个描述快乐面部表情的视频可能与过去谈论的一个积极的单词或短语密切相关。因此,不同模态数据之间的异步性以及非对齐数据特征无疑增加了多模态高效融合的 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应互信息和层次化Transformer的多模态情感分析方法,该方法包括3个步骤,即多模态数据特征抽取、模态增强和情感预测。2.多模态数据特征抽取基于自适应互信息和层次化Transformer的多模态情感分析方法首先将不同模态的原始输入数据分别处理成具有不同特征提取器的向量。对于视频数据,采用FACET OpenFace从视频剪辑中提取序列特征;对于音频数据,采用COVAREP和P2FA从音频剪辑中提取序列特征。提取出的特征随后分别通过V
‑
LSTM模型和A
‑
LSTM模型将视频和音频剪辑中提取的特征编码为单位长度的向量H
v
和H
a
。对于文本输入数据,采用Pre
‑
trained BERT模型将原始文本标记为单位长度的向量H
t
。H
t
、H
v
和H
a 可以通过(式1)计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式1)其中,,,n是序列的长度,d是特征的维度,,和分别是V
‑
LSTM模型、A
‑
LSTM模型和预训练的BERT模型的参数。3.(1)自适应互信息:是本发明提出的一种自动学习不同模态间最大化互信息的方法;(2)Transformer:是一种神经网络模型,从上下文学习序列数据的关系;(3)层次化Transformer:是本发明提出的一种模态对齐技术,旨在从跨模态非对齐数据中保留模态一致性的特征;(4)FACET OpenFace:是一种面部行为识别工具,实现了最先进的面部行为分析算法,包括:人脸特征点检测、头部姿态跟踪、眼睛视线和面部动作估计等;(5)COVAREP: 是一个处理语音技术的算法库,可以提供最新语音快速处理算法;(6)P2FA:是宾西法尼亚大学研发的强制对齐标注软件;(7)V
‑
LSTM:是基于视频的长短期记忆模型;(8)A
‑
LSTM:是基于语音的长短期记忆模型;(9)Pre
‑
trained BERT:是一种预训练的多层双向编码Transformer模型,可以学习到输入文本的向量表示;(10)H
v
、H
a
、H
t
:表示经过特征提取后的视频、音频和文本特征。4.模态增强为了加强模态间的同质性进而弥补不同模态间的异质性差距,在模态增强阶段采用自适应互信息最大化H
v
、H
a
、H
t
之间的互信息。另外,本发明方法使用跨模态Transformer网络融合H
v
、H
a
、H
t
,可以加强模态之间的同质性,以对齐多模态异步序列数据。最后,采用自适应互信息与层次化Transformer联合增强模态融合效果。5. (1)自适应互信息模态增强阶段的任务是自适应地将成对模态之间的互信息最大化。由于序列数据的真实分布未知,自适应互信息采用了一种互信息估计器的参数化估计方法MINE,基于KL散度估计互信息。对于2个随机向量x,y,其边际分布为p(x),p(y),联合分布为p(x, y),x和y的互信息的可以如下定义:
ꢀ
(式2)其中,θ是神经网络的参数,E是数学期望,T是一组带有参数的函数,sup是最小上界,D
KL
是基于KL散度的参数化互信息。由于异质模态间分布不一致的特点,结合MINE参数估计方法,x、y的联合分布与其边际分布的差异不相同。因此,可以得到如下两部分的互信息:
ꢀꢀꢀꢀ
(式3)以上两部分的互信息值的不同组合方式对预测结果有显著影响。为了改进各种多模态融合任务,最大限度地保持模态一致性,本发明采用自适应互信息估计器,自适应地调整以上两部分的互信息值,计算方法如(式4)所示,其中α1,α2是参数,(式4)需满足式(式5)的约束:
ꢀꢀꢀ
(式4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式5)模态增强的任务是最大化MI
A
,可以通过(式6)
‑
(式8)实现:
ꢀꢀꢀꢀꢀ
(式6)
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。