一种基于多模态信息的情感分布学习方法技术

技术编号:27477113 阅读:26 留言:0更新日期:2021-03-02 17:45
本发明专利技术公开了一种基于多模态信息的情感分布学习方法,包括:S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;S2、模型训练:在训练集上学习每个模态的情感分布;S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。本发明专利技术通过学习来获取更加准确的标记相关性矩阵,另外,在进行多模态数据处理时采用了后期融合策略,同时,在训练过程中通过约束不同模态的标记相关性矩阵尽可能相似来实现不同模态之间的相互印证和相互补充。本发明专利技术通过引入多模态信息可以提高情感分布学习模型的性能。可以提高情感分布学习模型的性能。可以提高情感分布学习模型的性能。

【技术实现步骤摘要】
一种基于多模态信息的情感分布学习方法


[0001]本专利技术涉及机器学习技术,特别是涉及一种基于多模态信息的情感分布学习方法。

技术介绍

[0002]情感识别是一个热门研究领域,在计算语言学、计算机视觉和机器学习等多个领域具有相当大的实践和理论价值。先前的大量研究只是能够解决“什么描述了情感”这一不明确的问题,即假设每个表情都与一个或多个预定义的情感标签相关联,而忽略了多种情绪始终具有不同强度的事实。因此,耿新等人将标记分布学习(LDL)框架引入到情感识别中。与以往的情感分类研究不同,LDL框架对一个实例分配一组具有描述度的标签,对情感的描述更加明确。
[0003]近年来,已经进行了一些基于LDL的情绪识别工作。例如,通过基于Plutchik的情感理论捕获标记的关系来进行情感学习的方法;利用标记相关性来构建情感识别模型的方法,等等。
[0004]但是,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。多模态数据可以为情感识别提供更全面、更丰富的信息。
[0005]因此,现有的情感分布学习模型的主要缺点是:它们都是基于面部表情的单一模态学习,然而在现实世界中,只通过面部表情或某单一模态来进行情感识别时具有一定的片面性,且可能产生错误结果。例如,在刑事案件中,被审讯人可以控制自己的面部表情来掩饰自己真实的情感,但是,心跳血压等生理信号很难控制,这时候多模态信息就显得尤为重要。而且随着各种数据收集技术的出现,收集身体姿态、声音以及生理信号等多种模态的信息得以实现。

技术实现思路

[0006]专利技术目的:本专利技术的目的是提供一种基于多模态信息的情感分布学习方法,通过引入多模态信息可以提高情感分布学习模型的性能。
[0007]技术方案:本专利技术的基于多模态信息的情感分布学习方法,包括以下步骤:
[0008]S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;
[0009]S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;
[0010]S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略
将所有模态结果结合起来得到最终结果。
[0011]进一步的,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:
[0012]S101、删除原始音频中首尾各1s的内容;
[0013]S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;
[0014]S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;
[0015]S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;
[0016]S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;
[0017]视频数据特征提取的方法为:
[0018]S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;
[0019]S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。
[0020]进一步的,步骤S2具体包括以下步骤:
[0021]S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;
[0022]S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;
[0023]S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。
[0024]更进一步的,步骤S21具体为:
[0025]采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:
[0026][0027]其中,是基于模态m预测的情感分布,W
(m)
∈H是求解的参数矩阵,φ
(m)
具体为:
[0028]φ
(m)
=[φ([X
(m)
]1),φ([X
(m)
]2),

,φ([X
(m)
]n
)];
[0029]其中,m表示第m个模态,是一种核函数,[X
(m)
]n
表示第m个模态中样本n的特征向量;为了拟合情感分布,采用均方误差作为损失函数,具体如下:
[0030][0031]s.t.φ
(m)
·
W
(m)
×1l
×1=1
n
×1;
[0032]φ
(m)
·
W
(m)
1≥0
n
×1;
[0033]其中,D是真实的情感分布,‖
·
‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:
[0034][0035]其中,k(x
i
,x)表示样本i的特征x
i
与特征x的内积,α
ij
为系数;因此,根据表示定理,优化后的损失函数为:
[0036][0037]s.t.K
(m)
·
α
(m)
×1l
×1=1
n
×1;
[0038]K
(m)
·
α
(m)
1≥0
n
×1;
[0039]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息的情感分布学习方法,其特征在于,包括以下步骤:S1、数据准备:提取多模态数据特征,并将多模态数据特征数据集分为训练集和测试集,分别用于模型训练部分和情感预测部分;S2、模型训练:在步骤S1得到的训练集上学习每个模态的情感分布,具体地:首先为每个模态学习一个标记相关性矩阵,然后,利用希尔伯特-施密特独立标准约束每个模态的标记相关性矩阵相似构建出目标函数;最后,利用优化方法交替方向乘子算法ADMM对该目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成;S3、情感预测:基于步骤S2中训练好的模型在测试集上进行预测,并通过融合策略将所有模态结果结合起来得到最终结果。2.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S1中提取多模态数据特征包括音频数据特征和视频数据特征,其中,音频数据特征提取中先对原始音频进行去躁,然后对去躁后的音频提取情感特征,具体为:S101、删除原始音频中首尾各1s的内容;S102、将经步骤S11处理后的音频信号在各尺度上进行小波分解,保留大尺度下的全部分解值;对于小尺度下的分解值,设定阈值:其中,σ=MAD/0.6745,MAD为首层小波分解系数绝对值的中间值,0.6745为高斯噪声标准方差的调整系数,N为信号的尺寸或长度,幅值低于该阈值的小波系数置为零,高于该阈值的小波系数完整保留;S103、将经步骤S102处理后的小波系数利用逆小波变换进行重构,恢复出有效的信号;S104、根据步骤S103中去躁后的音频信号,依次经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换,计算得到MFCC特征;S105、将步骤S104中获取的高维MFCC特征通过调用PCA方法降维;视频数据特征提取的方法为:S111、使用一个关键帧来表示视频中被试的情绪状态,该关键帧提取为语音振幅最高的那一帧;S112、使用由RESNET预训练的VGG19网络来提取步骤S111中关键帧的特征,具体地:将含有通道维的关键帧图片矩阵输入到预训练好的VGG19网络,取分类器层之前的最后隐层的输出作为图片特征;使用由RESNET预训练的VGG19网络来提取图片特征,具体地:将含有通道维的图片矩阵输入到预训练好的VGG网络,取分类器层之前的最后隐层的输出作为图片特征。3.根据权利要求1所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S2具体包括以下步骤:S21、在步骤S1得到的训练集上为每个模态各学习一个标记相关性矩阵,该标记相关性矩阵是一个二维对称矩阵,表示标记x与标记y之间的相关性,数值越大表示相关性越大;S22、利用希尔伯特-施密特独立标准HSIC约束M个模态的标记相关性矩阵相似构建出目标函数;S23、利用优化方法交替方向乘子算法ADMM对目标函数进行最优化,求解出模型参数矩阵的最优值,即模型训练完成。4.根据权利要求3所述的基于多模态信息的情感分布学习方法,其特征在于,步骤S21
具体为:采用核回归模型为每个模态来学习情感分布,给出一个核k,令H为对应的RKHS。对于模态m,输出函数为:其中,是基于模态m预测的情感分布,W
(m)
∈H是求解的参数矩阵,φ
(m)
具体为:φ
(m)
=[φ([X
(m)
]1),φ([X
(m)
]2),

,φ([X
(m)
]
n
)];其中,m表示第m个模态,是一种核函数,[X
(m)
]
n
表示第m个模态中样本n的特征向量;为了拟合情感分布,采用均方误差作为损失函数,具体如下:s.t.φ
(m)
·
W
(m)
×1l
×1=1
n
×1;φ
(m)
·
W
(m)
1≥0
n
×1;其中,D是真实的情感分布,‖
·
‖是RKHS范式,λ1是权重系数;根据表示定理将损失函数优化;表示定理优化策略如下:其中,k(x
i
,x)表示样本i的特征x
i
与特征x的内积,α
ij

【专利技术属性】
技术研发人员:贾修一沈小霞
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1