一种基于视频中人脸表情和语音的双模态航天员情绪识别方法技术

技术编号:38130787 阅读:13 留言:0更新日期:2023-07-08 09:38
本发明专利技术公开了一种基于视频中人脸表情和语音的双模态航天员情绪识别方法:针对视频中人脸表情模态,从RAVDESS中截取视频帧,判断其中是否包含人脸,将含有人脸的原图像裁剪至面部区域;将原始面部图像编辑为模拟太空环境下的面部图像;将预处理后的面部图像输入含有注意力机制的卷积神经网络ATT_CNN中,获得航天员面部表情模态情绪识别结果;针对视频中语音模态,将RAVDESS中的音频数据叠加随机噪声得到模拟太空环境下的语音信号;将信号输入到语音增强网络获得干净的语音信号,并提取其MFCC特征,输入到CNN_LSTM网络中,获得航天员语音模态情绪识别结果;最后,将面部表情情绪识别结果和语音情绪识别结果进行决策融合,获得最终的双模态航天员情绪识别结果。终的双模态航天员情绪识别结果。终的双模态航天员情绪识别结果。

【技术实现步骤摘要】
一种基于视频中人脸表情和语音的双模态航天员情绪识别方法


[0001]本专利技术涉及载人航天领域用于航天员的情绪识别、图像处理和语音处理
,具体为一种基于视频中人脸表情和语音的双模态航天员情绪识别方法。

技术介绍

[0002]早在20世纪80年代中期,俄罗斯空间生物医学问题专家就曾指出“限制人类探索太空的不是医学,而是心理学”。随着人类宇宙探索的不断发展,载人航天任务的时间长度和复杂性也在不断增加,长期载人飞行已经成为当前航天领域的主流任务。在航天任务中,航天员通常暴露在电离辐射、失重、噪音、隔离、缺氧和昼夜节律(生物钟)紊乱等极端环境下。从心理学角度看,在这种极端环境下,航天员的心理状态、情绪反应、人际沟通等方面都有可能出现适应不良问题,进而影响工作,甚至危及航天任务的完成和航天员生命安全。在长期航天任务中,关注航天员的情绪变化和心理健康状态十分重要。
[0003]2018年,由IBM、空客公司和德国宇航中心联合开发的全球首个基于人工智能技术的宇航员助手CIMON被送往国际空间站,开展为期14个月的太空测试。2019年,经过技术升级的CIMON

2重返国际空间站。不同于第一代,CIMON

2采用IBM Cloud的沃森音调分析器,能够通过音调识别评估宇航员的情绪并做出反应。2020年,Adrian等人针对隔离封闭的环境条件,提出了一种新的基于人类学面部标志(AFL)原理的情感检测系统,与现有的基于动作单元(AU)的情感检测模型相比,具有更好的性能。2010年,高慧等人在模拟航天环境下建立应激语料库,采用基于Teager能量算子的非线性特征和隐马尔可夫模型,获得了识别率为98.6%的平静-烦躁识别性能。2012年,北京师范大学开发的通过脑电波监测航天员在太空中基本认知功能和情绪变化特征的软件,搭载神舟九号飞船一同进入太空。2018年,刘洋等人通过特征提取、高斯混合模型方法搭建了语音情绪识别模型和软件平台,对中文语料库的应激情绪识别率达到86%。目前国内外面向航天员的情绪识别主要是单一模态,集中在基于面部图像、基于语音信号和基于脑电信号的情绪识别。然而单模态情绪识别在发展的过程中会出现无法避免的缺点,如识别准确率低、特征质量无法保证等。因此,为了提高情绪识别算法的鲁棒性,可以将多个单模态的信息进行融合,提出多模态情绪识别研究。

技术实现思路

[0004]本专利技术提供一种基于视频中人脸表情和语音的双模态航天员情绪识别方法,以解决现有技术中单模态情绪识别准确率低、特征质量无法保证的问题。本专利技术采用决策层融合的思路,对航天员的面部表情和语音分别进行特征提取和识别,通过在决策端进行融合以获得双模态的情绪识别结果,从而实现面向长期航天任务的航天员情绪识别。
[0005]为实现上述目的,本专利技术的技术方案为:
[0006]一种基于视频中人脸表情和语音的双模态航天员情绪识别方法,包括以下步骤:
[0007]S1.从现有的公开数据集RAVDESS中截取视频帧,采用Viola

Jones人脸检测算法
判断其中是否包含人脸,并将含有人脸的原图像裁剪至面部区域;
[0008]S2.通过双边滤波算法和液化算法,将原始面部图像编辑为模拟太空环境下的面部图像;
[0009]S3.将预处理后的面部图像输入含有注意力机制的卷积神经网络ATT_CNN中,获得航天员面部表情模态情绪识别结果;
[0010]S4.将公开数据集RAVDESS中的音频数据叠加随机噪声得到模拟太空环境下的语音信号;
[0011]S5.将信号输入到语音增强网络获得干净的语音信号,并提取其MFCC特征,随后,输入到CNN_LSTM网络中,该网络由卷积神经网络CNN和长短期记忆网络LSTM融合构成,从而获得航天员语音模态情绪识别结果;
[0012]S6.将面部表情情绪识别结果和语音情绪识别结果进行决策融合,获得最终的双模态航天员情绪识别结果。
[0013]进一步的,所述步骤S1具体为:
[0014]S11.利用Haar

like特征描述人脸特征,特征模板内有白色和黑色两种矩形,Haar

like特征定义为白黑矩形区域像素之和的差值,在一定程度上反映图像灰度的局部变化,将人脸特征量化,以区分人脸和非人脸;
[0015]S12.建立积分图像,利用该图像快速获取几种不同的矩形特征,对于积分图像坐标系中横坐标为x,纵坐标为y的点(x,y),该点的积分图像值等于位于该点左上角所有像素之和,表达式为:S(x,y)=∑
x

≤x

y

≤y
f(x

,y

),其中,S(x,y)为点(x,y)的积分图像值,f(x

,y

)为坐标系中横坐标为x

,纵坐标为y

的点的像素值,且积分图像满足如下关系:S(x,y)=f(x,y)+S(x

1,y)+S(x,y

1)

S(x

1,y

1),其中,f(x,y)为点A(x,y)的像素值,S(x

1,y)为点(x

1,y)的积分图像值,S(x,y

1)为点(x,y

1)的积分图像值,S(x

1,y

1)为点(x

1,y

1)的积分图像值;
[0016]S13.采用AdaBoost算法进行训练,通常一张图像会生成一个远远高于图像维度的特征集,比如一个24*24的图像会生成162336个矩形特征,但并不是所有特征都是有用的,因此就需要AdaBoost特征分类器提取出有用的特征,AdaBoost是将一系列的弱分类器通过线性组合构成一个强分类器;假设一张图像会产生N个特征,对于第i个特征f
i
,i=1,2,3

N,强分类器表达式为:其中,a为一个检测子窗口,α
i
为系数,h(a)为一个强分类器,h
i
(a)为一个弱分类器,其表示为一个简单的阈值函数:其中,θ
i
为阈值;
[0017]S14.建立级联分类器,由于正常图像中人脸区域只占了很小的一部分,如果对所有特征都进行训练的话,运算量非常大,于是采取将多个强分类器级联的方法,排在前面的分类器负责用少量的特征将大部分的非人脸区域剔除掉,后面再利用更复杂的特征将更复杂的非人脸区域剔除掉;
[0018]S15.人脸检测得到人脸边界框后,原图像可以裁剪至面部区域。
[0019]进一步的,所述步骤S2具体为:
[0020]S21.采用双边滤波算法实现原始图像的面部磨皮,在面部轮廓区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频中人脸表情和语音的双模态航天员情绪识别方法,其特征在于,包括以下步骤:S1.从现有的公开数据集RAVDESS中截取视频帧,采用Viola

Jones人脸检测算法判断其中是否包含人脸,并将含有人脸的原图像裁剪至面部区域;S2.通过双边滤波算法和液化算法,将原始面部图像编辑为模拟太空环境下的面部图像;S3.将预处理后的面部图像输入含有注意力机制的卷积神经网络ATT_CNN中,获得航天员面部表情模态情绪识别结果;S4.将公开数据集RAVDESS中的音频数据叠加随机噪声得到模拟太空环境下的语音信号;S5.将信号输入到语音增强网络获得干净的语音信号,并提取其MFCC特征,随后,输入到CNN_LSTM网络中,该网络由卷积神经网络CNN和长短期记忆网络LSTM融合构成,从而获得航天员语音模态情绪识别结果;S6.将面部表情情绪识别结果和语音情绪识别结果进行决策融合,获得最终的双模态航天员情绪识别结果。2.根据权利要求1所述的基于视频中人脸表情和语音的双模态航天员情绪识别方法,其特征在于,所述步骤S1具体为:S11.利用Haar

like特征描述人脸特征,特征模板内有白色和黑色两种矩形,Haar

like特征定义为白黑矩形区域像素之和的差值,反映图像灰度的局部变化,将人脸特征量化,以区分人脸和非人脸;S12.建立积分图像,利用该图像快速获取几种不同的矩形特征,对于积分图像坐标系中横坐标为x,纵坐标为y的点(x,y),该点的积分图像值等于位于该点左上角所有像素之和,表达式为:S(x,y)=∑
x

≤x

y

≤y
f(x

,y

),其中,S(x,y)为点(x,y)的积分图像值,f(x

,y

)为坐标系中横坐标为x

,纵坐标为y

的点的像素值,且积分图像满足如下关系:S(x,y)=f(x,y)+S(x

1,y)+S(x,y

1)

S(x

1,y

1),其中,f(x,y)为点A(x,y)的像素值,S(x

1,y)为点(x

1,y)的积分图像值,S(x,y

1)为点(x,y

1)的积分图像值,S(x

1,y

1)为点(x

1,y

1)的积分图像值;S13.采用AdaBoost算法进行训练,通常一张图像会生成一个高于图像维度的特征集,假设一张图像会产生N个特征,对于第i个特征f
i
,i=1,2,3...N,强分类器表达式为:其中,a为一个检测子窗口,α
i
为系数,h(a)为一个强分类器,h
i
(a)为一个弱分类器,h
i
(a)表示为一个简单的阈值函数:其中,θ
i
为阈值;S14.建立级联分类器,采取将多个强分类器级联的方法,排在前面的分类器负责用少量的特征将大部分的非人脸区域剔除掉,后面再利用更复杂的特征将更复杂的非人脸区域剔除掉;S15.人脸检测得到人脸边界框后,原图像裁剪至面部区域。3.根据权利要求1所述的基于视频中人脸表情和语音的双模态航天员情绪识别方法,其特征在于,所述步骤S2具体为:
S21.采用双边滤波算法实现原始图像的面部磨皮,双边滤波的公式为:其中,其中,其中,其中,G(p)为双边滤波函数,p为中心像素点,x和y分别为点p的横坐标和纵坐标,q为与中心像素点计算的另一个像素点,m和n分别为点q的横坐标与纵坐标,F(p)为点p的像素值,F(q)为点q的像素值,Ω表示图像,σ
s
为空间域高斯函数的标准差,σ
r
为像素域高斯函数的标准差,为空间域核,为像素域核,e为自然常数;双边滤波的本质是两个高斯函数的叠加,一个是以距离为变量,另一个是以像素差值为变量,并做卷积求和,η(p)
‑1是做归一化处理的,是以像素值为变量...

【专利技术属性】
技术研发人员:袁家斌陈章玙刘续尚玉叶
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1