用于多模态的情绪识别模型训练方法技术

技术编号：39680122 阅读：13 留言：0更新日期：2023-12-11 18:57

本发明专利技术实施例提供一种用于多模态的情绪识别模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
用于多模态的情绪识别模型训练方法、系统和电子设备

[0001]本专利技术涉及情感计算领域，尤其涉及一种用于多模态的情绪识别模型训练方法
、
系统和电子设备
。

技术介绍

[0002]情绪识别可以使人机交互机器实现情感智能，能够让人机交互机器识别
、
理解和回应人类的情绪及情感
。
现有技术中，会使用各种生理和非生理信号来进行情绪识别
。
就非生理信号而言，语音
、
面部表情和肢体动作已被研究人员用于识别人类情绪
。
然而，非生理信号很容易被伪造，因此不可信，因为个人可能会隐藏自己的真实情绪
。
相比之下，
EEG(electroencephalography
，脑电图
)、EMG(electromyogram
，肌电图
)
和心电图等生理信号提供了比非生理信号更可靠
、
更稳定的选择
。
其中，脑电图在情绪识别方面表现出色，因为它与基本神经机制有内在联系，会使用脑电情绪数据集来进行情绪的研究
。
[0003]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0004]现有技术关于情绪的研究会使用的脑电情绪数据集有：
MAHNOB
‑
HCI、DEAP
和
SEED
，但是，常用的脑电情绪数据集的情绪类别通常包括正向
、r/>中性
、
负向，情绪类别相对较少；情绪是复杂而动态的生理过程，其强度和状态随时间而变化，现有脑电情绪数据集的数据长度较短
。
现有技术缺少情绪类别更丰富
、
多模态的脑电情绪数据集，以及应用于该脑电情绪数据集的多模态互补的情绪识别模型训练方法
。

技术实现思路

[0005]为了至少解决现有技术中脑电情绪数据集情绪类别少
、
时间长度短
、
缺乏多模态信号，使用现有脑电情绪数据集训练的情绪识别模型效果有限的问题
。
[0006]第一方面，本专利技术实施例提供一种用于多模态的情绪识别模型训练方法，包括：
[0007]获取被试者观看第一情绪素材以及第二情绪素材过程中的多模态情绪数据集，其中，所述多模态情绪数据集包括：脑电信号
、
眼动信号；
[0008]将从所述脑电信号
、
眼动信号中提取的脑电微分熵特征以及眼动特征，输入至用于情绪识别的多模态自适应情绪
Transformer
模型，其中，所述多模态自适应情绪
Transformer
模型包括：多视图嵌入模块
、
自适应
Transformer
模块
、
混合
Transformer
模块以及分类器；
[0009]利用所述多视图嵌入模块内的多个平行线性层，将所述脑电微分熵特征以及眼动特征转换为多视图下的脑电嵌入序列以及眼动嵌入序列，将所述脑电嵌入序列以及眼动嵌入序列输入至所述多视图嵌入模块内的批归一化层，得到多模态嵌入；
[0010]将所述多模态嵌入输入至所述自适应
Transformer
模块以及所述混合
Transformer
模块，通过所述自适应
Transformer
模块内的脑电前馈网络或眼动前馈网络
、
所述混合
Transformer
模块内的混合前馈网络输出多模态特征；
[0011]通过所述分类器至少确定出所述多模态特征的预测情绪标签，基于所述预测情绪
标签以及预准备的实际情绪标签确定情绪损失，基于所述情绪损失进行训练，得到用于多模态情绪识别的多模态自适应情绪
Transformer
模型
。
[0012]第二方面，本专利技术实施例提供一种用于多模态的情绪识别模型训练系统，包括：
[0013]多模态数据获取模块，用于获取被试者观看第一情绪素材以及第二情绪素材过程中的多模态情绪数据集，其中，所述多模态情绪数据集包括：脑电信号
、
眼动信号；
[0014]特征输入模块，用于将从所述脑电信号
、
眼动信号中提取的脑电微分熵特征以及眼动特征，输入至用于情绪识别的多模态自适应情绪
Transformer
模型，其中，所述多模态自适应情绪
Transformer
模型包括：多视图嵌入模块
、
自适应
Transformer
模块
、
混合
Transformer
模块以及分类器；
[0015]多模态嵌入确定模块，用于利用所述多视图嵌入模块内的多个平行线性层，将所述脑电微分熵特征以及眼动特征转换为多视图下的脑电嵌入序列以及眼动嵌入序列，将所述脑电嵌入序列以及眼动嵌入序列输入至所述多视图嵌入模块内的批归一化层，得到多模态嵌入；
[0016]多模态特征确定模块，用于将所述多模态嵌入输入至所述自适应
Transformer
模块以及所述混合
Transformer
模块，通过所述自适应
Transformer
模块内的脑电前馈网络或眼动前馈网络
、
所述混合
Transformer
模块内的混合前馈网络输出多模态特征；
[0017]训练模块，用于通过所述分类器至少确定出所述多模态特征的预测情绪标签，基于所述预测情绪标签以及预准备的实际情绪标签确定情绪损失，基于所述情绪损失进行训练，得到用于多模态情绪识别的多模态自适应情绪
Transformer
模型
。
[0018]第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例的用于多模态的情绪识别模型训练方法的步骤
。
[0019]第四方面，本专利技术实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本专利技术任一实施例的用于多模态的情绪识别模型训练方法的步骤
。
[0020]本专利技术实施例的有益效果在于：本方法构建了多模态情绪数据集，包括七种基本情绪
(
快乐
、
悲伤
、
恐惧
、
厌恶
、
惊讶
、
愤怒和中性
)
的脑电图
(
脑电信号
)
和眼动信号
。
此外，该数据集具有连续的标签，表明被试者在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种用于多模态的情绪识别模型训练方法，包括：获取被试者观看第一情绪素材以及第二情绪素材过程中的多模态数据，其中，所述多模态数据包括：脑电信号
、
眼动信号；将从所述脑电信号
、
眼动信号中提取的脑电微分熵特征以及眼动特征，输入至用于情绪识别的多模态自适应情绪
Transformer
模型，其中，所述多模态自适应情绪
Transformer
模型包括：多视图嵌入模块
、
自适应
Transformer
模块
、
混合
Transformer
模块以及分类器；利用所述多视图嵌入模块内的多个平行线性层，将所述脑电微分熵特征以及眼动特征转换为多视图下的脑电嵌入序列以及眼动嵌入序列，将所述脑电嵌入序列以及眼动嵌入序列输入至所述多视图嵌入模块内的批归一化层，得到多模态嵌入；将所述多模态嵌入输入至所述自适应
Transformer
模块以及所述混合
Transformer
模块，通过所述自适应
Transformer
模块内的脑电前馈网络或眼动前馈网络
、
所述混合
Transformer
模块内的混合前馈网络输出多模态特征；通过所述分类器至少确定出所述多模态特征的预测情绪标签，基于所述预测情绪标签以及预准备的实际情绪标签确定情绪损失，基于所述情绪损失进行训练，得到用于多模态情绪识别的多模态自适应情绪
Transformer
模型
。2.
根据权利要求1所述的方法，其中，所述分类器包括：脑电分类器
、
眼动分类器
、
脑电与眼动的融合分类器
、
带有梯度反转层的域分类器；所述通过所述分类器至少确定出所述多模态特征的预测情绪标签，基于所述预测情绪标签以及预准备的实际情绪标签确定情绪损失包括：基于所述脑电分类器
、
眼动分类器
、
脑电与眼动的融合分类器确定出所述多模态特征的预测情绪标签；基于所述域分类器确定出所述多模态特征的预测域类别；利用预准备的实际情绪标签
、
实际域类别
、
所述预测情绪标签以及所述预测域类别确定情绪损失；基于所述情绪损失对所述域分类器以及所述脑电分类器
、
眼动分类器
、
脑电与眼动的融合分类器进行领域对抗训练，得到跨被试者的多模态自适应情绪
Transformer
模型
。3.
根据权利要求1所述的方法，其中，在所述将所述多模态嵌入输入至所述自适应
Transformer
模块以及所述混合
Transformer
模块之后，所述方法还包括：将情绪提示参数输入至所述自适应
Transformer
模块以及所述混合
Transformer
模块；通过所述自适应
Transformer
模块内的脑电前馈网络或眼动前馈网络
、
所述混合
Transformer
模块内的混合前馈网络，从所述多模态嵌入以及所述情绪提示参数中确定多模态特征；所述基于所述情绪损失进行训练包括：基于所述情绪损失对所述情绪提示参数以及分类器进行训练
。4.
根据权利要求1所述的方法，其中，所述获取被试者观看第一情绪素材以及第二情绪素材过程中的多模态数据包括：获取用于激发第一情绪类别的第一情绪素材
、
用于激发第二情绪类别的第二情绪素材，其中，所述第一情绪类别包括：快乐
、
悲伤
、
恐惧
、
厌恶
、
愤怒和中性，所述第一情绪素材包括：视频素材片段，所述第二情绪类别包括：惊讶，所述第二情绪素材包括：魔术素材片
段；从所述第一情绪素材以及所述第二情绪素材中选择
N
个情绪类别的视频素材片段和
/
或魔术素材片段，其中，所述
N
小于预设情绪转换阈值，用于限制所述被试者观看情绪素材激发的情绪类别的广度，以降低被试者因情绪转换对脑电信号
、
眼动信号的影响；基于预设的同一情绪类别的素材连续展示次数以及情绪类别，调控所述第一情绪素材以及第二情绪素材的展示顺序，基于所述展示顺序依次向所述被试者展示视频素材片段或魔术素材片段，用于减缓被试者情绪的切换幅度；采集所述被试者观看所述视频素材片段或魔术素材片段的脑电信号以及眼动信号；接收被试者输入的与所述脑电信号以及眼动信号相对应的实际情绪标签
、
以及对应于所述被试者的实际域类别
。5.
一种用于多模态的情绪识别模型训练系统，包括：多模态数据获取模块，用于获取被试者观看第一情绪...

【专利技术属性】
技术研发人员：吕宝粮，
申请(专利权)人：上海零唯一思科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人