当前位置: 首页 > 专利查询>台州学院专利>正文

一种基于自适应互信息和层次化Transformer的多模态情感分析方法技术

技术编号:39149519 阅读:9 留言:0更新日期:2023-10-23 14:58
本发明专利技术公开了一种基于自适应互信息和层次化Transformer的多模态情感分析方法。本发明专利技术采用自适应互信息和层次化Transformer提高多种模态非对齐数据的特征融合效果,进而进行精准的情感分析,具体包括多模态数据特征抽取、模态增强和情感预测等模块。其中,模态增强模块包括自适应互信息、层次化Transformer以及自适应互信息和层次化Transformer联合增强模态融合,三个子模块可以获取成对模态数据最大化的互信息以及解决跨模态数据不对齐的问题。本发明专利技术能够有效提高多模态非对齐数据特征的融合效果,是一种可行的具有鲁棒性的多模态情感分析方法。本发明专利技术可用于人工智能、计算机视觉、机器人与人机交互技术等领域。机器人与人机交互技术等领域。机器人与人机交互技术等领域。

【技术实现步骤摘要】
一种基于自适应互信息和层次化Transformer的多模态情感分析方法


[0001]本专利技术涉及文本、视频和音频等多模态数据分析、处理与识别
,具体领域为一种基于自适应互信息和层次化Transformer的多模态情感分析方法。

技术介绍

[0002]情感在日常的人际交往中起着至关重要的作用。多模态情感分析作为一种智能情感分析技术,可以从多种输入信号(例如,语音、文本、视频等)中识别和检测人类的情绪状态,弥补人类和计算机之间通信之间的差距。
[0003]多模态情感分析的关键步骤是多模态融合,其目的是弥补多种输入模态数据之间的异质性差距,并为下游任务提取跨模态的统一特征表示。然而,如何有效地融合不同模态的情感特征仍是一个未能有效解决的问题,这可能是因为不同模态的输入数据既不是绝对独立的,也不是绝对相关的,导致捕获跨模态统一特征表示具有极大的挑战。
[0004]尽管目前采用各种简单连接特征的融合机制在学习统一特征表示时获得了显著的效果(见专利:宋彦,张勇东,陈伟东等.一种基于变分跨模态表征的实时弹幕情感分析方法

申请号/专利号:CN202310574093.8),但是不同模态之间的相互作用仍在很大程度上未得到充分的探索。此外,不同模态序列数据由于采样率不同通常是异步的,在实际场景中收集到的多模态序列数据往往表现出固有的非对齐特征。例如,一个描述快乐面部表情的视频可能与过去谈论的一个积极的单词或短语密切相关。因此,不同模态数据之间的异步性以及非对齐数据特征无疑增加了多模态高效融合的挑战性。为了解决这一问题,最近的研究工作提出了基于非对齐模态数据的融合方法。例如,Lv等人基于跨模态Transformer开发了一种渐进模态强化方法(Fengmao Lv, Xiang Chen, Yanyong Huang, et al. 2021.Progressive modality reinforcement for human multimodal emotion recognition from unaligned multimodal sequences. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). (June 2021),2554

2562.)。基于Transformer的方法可以处理异步序列数据,学习不同模态之间的长期依赖关系。然而,目前基于Transformer的研究要么集中在粗糙的全局交互作用上,要么忽略了成对模态之间的交互作用,导致跨模态相关性的学习出现模糊或者不可靠的分析结果。
[0005]互信息由于可以测量成对多维变量之间依赖性,因此有望在探索情绪信息方面具有良好的表现。然而,目前基于互信息计算的方法在多模态情感分析方面的研究并不充分,缺乏基于特定任务的研究。

技术实现思路

[0006]针对现有技术和研究内容存在的不足,本专利技术的目的在于通过整合跨模态Transformer和互信息技术,设计出一种能够联合学习模态间相关性的情感分析模型,采用
基于自适应互信息和层次化Transformer的模态增强方法解决多模态情感分析中非对齐序列数据难以有效融合的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于自适应互信息和层次化Transformer的多模态情感分析方法,该方法包括3个步骤,即多模态数据特征抽取、模态增强和情感预测。
[0007]1.多模态数据特征抽取
[0008]基于自适应互信息和层次化Transformer的多模态情感分析方法首先将不同模态的原始输入数据分别处理成具有不同特征提取器的向量。对于视频,采用FACET OpenFace从视频剪辑中提取序列特征;对于音频模态数据,采用COVAREP和P2FA从音频剪辑中提取序列特征。提取出的特征随后分别通过V

LSTM模型和A

LSTM模型将视频和音频剪辑中提取的特征编码为单位长度的向量H
v
和H
a
。对于文本输入数据,采用Pre

trained BERT模型将原始文本标记为单位长度的向量H
t
。H
t
、H
v
和H
a 可以通过(式1)计算得到。
[0009]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式1)
[0010]其中,,,n是序列的长度,d是特征的维度,,和分别是V

LSTM模型、A

LSTM模型和预训练的BERT模型的参数。
[0011]自适应互信息:是本专利技术提出的一种自动学习不同模态间最大化互信息的方法。
[0012]Transformer:是一种神经网络模型,从上下文学习序列数据的关系。
[0013]层次化Transformer:是本专利技术提出的一种模态对齐技术,旨在从跨模态非对齐数据中保留模态一致性的特征。
[0014]FACET OpenFace:是一种面部行为识别工具,实现了最先进的面部行为分析算法,包括:人脸特征点检测、头部姿态跟踪、眼睛视线和面部动作估计等。
[0015]COVAREP: 是一个处理语音技术的算法库,可以提供最新语音快速处理算法。
[0016]P2FA:是宾西法尼亚大学研发的强制对齐标注软件。
[0017]V

LSTM:是基于视频的长短期记忆模型。
[0018]A

LSTM:是基于语音的长短期记忆模型。
[0019]Pre

trained BERT:是一种预训练的多层双向编码Transformer模型,可以学习到输入文本的向量表示。
[0020]H
v
、H
a
、H
t
:表示经过特征提取后的视频、音频和文本特征。
[0021]2.模态增强
[0022]为了加强模态间的同质性进而弥补不同模态间的异质性差距,在模态增强阶段采用自适应互信息最大化H
v
、H
a
、H
t
之间的互信息。另外,本专利技术方法使用跨模态Transformer网络融合H
v
、H
a
、H
t
,可以加强模态之间的同质性,以对齐多模态异步序列数据。最后,采用自适应互信息与层次化Transformer联合增强模态融合效果。
[0023] (1)自适应互信息
[0024]模态增强阶段的任务是自适应地将成对模态之间的互信息最大化。由于序列数据的真实分布未知,自适应互信息采用了一种互信息估计器的参数化估计方法MINE,基于KL散度估计互信息。对于2个随机向量x,y,其边际分布为p(x),p(y),联合分布为p(x, y),x和y的互信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应互信息和层次化Transformer的多模态情感分析方法,该方法包括3个步骤,即多模态数据特征抽取、模态增强和情感预测。2.多模态数据特征抽取基于自适应互信息和层次化Transformer的多模态情感分析方法首先将不同模态的原始输入数据分别处理成具有不同特征提取器的向量。对于视频数据,采用FACET OpenFace从视频剪辑中提取序列特征;对于音频数据,采用COVAREP和P2FA从音频剪辑中提取序列特征。提取出的特征随后分别通过V

LSTM模型和A

LSTM模型将视频和音频剪辑中提取的特征编码为单位长度的向量H
v
和H
a
。对于文本输入数据,采用Pre

trained BERT模型将原始文本标记为单位长度的向量H
t
。H
t
、H
v
和H
a 可以通过(式1)计算:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式1)其中,,,n是序列的长度,d是特征的维度,,和分别是V

LSTM模型、A

LSTM模型和预训练的BERT模型的参数。3.(1)自适应互信息:是本发明提出的一种自动学习不同模态间最大化互信息的方法;(2)Transformer:是一种神经网络模型,从上下文学习序列数据的关系;(3)层次化Transformer:是本发明提出的一种模态对齐技术,旨在从跨模态非对齐数据中保留模态一致性的特征;(4)FACET OpenFace:是一种面部行为识别工具,实现了最先进的面部行为分析算法,包括:人脸特征点检测、头部姿态跟踪、眼睛视线和面部动作估计等;(5)COVAREP: 是一个处理语音技术的算法库,可以提供最新语音快速处理算法;(6)P2FA:是宾西法尼亚大学研发的强制对齐标注软件;(7)V

LSTM:是基于视频的长短期记忆模型;(8)A

LSTM:是基于语音的长短期记忆模型;(9)Pre

trained BERT:是一种预训练的多层双向编码Transformer模型,可以学习到输入文本的向量表示;(10)H
v
、H
a
、H
t
:表示经过特征提取后的视频、音频和文本特征。4.模态增强为了加强模态间的同质性进而弥补不同模态间的异质性差距,在模态增强阶段采用自适应互信息最大化H
v
、H
a
、H
t
之间的互信息。另外,本发明方法使用跨模态Transformer网络融合H
v
、H
a
、H
t
,可以加强模态之间的同质性,以对齐多模态异步序列数据。最后,采用自适应互信息与层次化Transformer联合增强模态融合效果。5. (1)自适应互信息模态增强阶段的任务是自适应地将成对模态之间的互信息最大化。由于序列数据的真实分布未知,自适应互信息采用了一种互信息估计器的参数化估计方法MINE,基于KL散度估计互信息。对于2个随机向量x,y,其边际分布为p(x),p(y),联合分布为p(x, y),x和y的互信息的可以如下定义:

(式2)其中,θ是神经网络的参数,E是数学期望,T是一组带有参数的函数,sup是最小上界,D
KL
是基于KL散度的参数化互信息。由于异质模态间分布不一致的特点,结合MINE参数估计方法,x、y的联合分布与其边际分布的差异不相同。因此,可以得到如下两部分的互信息:
ꢀꢀꢀꢀ
(式3)以上两部分的互信息值的不同组合方式对预测结果有显著影响。为了改进各种多模态融合任务,最大限度地保持模态一致性,本发明采用自适应互信息估计器,自适应地调整以上两部分的互信息值,计算方法如(式4)所示,其中α1,α2是参数,(式4)需满足式(式5)的约束:
ꢀꢀꢀ
(式4)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式5)模态增强的任务是最大化MI
A
,可以通过(式6)

(式8)实现:
ꢀꢀꢀꢀꢀ
(式6)
...

【专利技术属性】
技术研发人员:王丹丹向天炯张石清
申请(专利权)人:台州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1