一种多模态情绪识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36408045 阅读:11 留言:0更新日期:2023-01-18 10:17
本申请涉及情绪识别技术领域,具体提供一种多模态情绪识别方法、装置、电子设备及存储介质,利用数据标注将要处理的语音和图像在时间维度上进行对齐,多模态情绪识别模型中利用resnet18网络和语音模型将两个模态数据在特征层进行融合,最后利用LSTM网络捕获数据中的上下文信息,输出情绪二维值,以根据情绪二维值得到驾驶人员你的当前情绪,本申请提供的一种多模态情绪识别方法,利用语音和图像两个模态进行情绪识别,并且进行两个模态数据融合时,参数量较小,利于在移动端部署该多模态情绪识别模型,符合汽车座舱系统车机主板的的计算能力,同时提升对驾驶人员情绪识别的准确率。率。率。

【技术实现步骤摘要】
一种多模态情绪识别方法、装置、电子设备及存储介质


[0001]本申请涉及情绪识别
,具体而言,涉及一种多模态情绪识别方法、装置、电子设备及存储介质。

技术介绍

[0002]智能车辆是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统,它集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术,是典型的高新技术综合体。目前智能汽车主要朝着智能座舱和智能驾驶两大方向发展,而智能座舱实现难度相对低且性价比更高,已经成为智能化主线上率先落地场景,其中,情绪识别是智能座舱系统的基础功能之一,通过情绪识别功能识别出的驾驶人员的情绪特征,进而自动调节智能座舱系统的音乐、灯光等场景,最为重要的是能够对“路怒症”加以预防,从而提升驾驶体验感以及安全性能。
[0003]现有技术中,智能座舱系统一般采用单一模态进行情绪识别,如通过摄像头仅仅采集驾驶人员面部特征来识别驾驶人员情绪的方式,导致情绪识别准确率不高;尽管,在其他应用领域,存在通过多模态进行情绪识别的方式,但是其为了解决多模态间的融合问题,计算量太大,并不适用于智能座舱的移动端。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种多模态情绪识别方法、装置、电子设备及存储介质,通过参数量较小的多模态情绪识别模型识别驾驶人员的情绪,能够提高情绪识别的准确率,满足智能座舱的移动端应用。
[0005]本申请实施例提供的一种多模态情绪识别方法,应用于汽车座舱系统,所述方法包括以下步骤:获取驾驶人员的视频数据;对所述视频数据进行预处理,包括:从所述视频数据中提取包含驾驶人员人脸的图像数据,以及从所述视频数据中提取音频数据,并提取所述音频数据的梅尔倒谱系数特征;基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,以根据所述情绪二维值得到驾驶人员的当前情绪,其中,所述情绪二维值包括情绪的强烈程度值和情绪的积极程度值。
[0006]在一些实施例中,所述从所述视频数据中提取包含驾驶人员人脸的图像数据,包括以下步骤:对所述视频数据按照设定的时间间隔抽帧一张图片;对获取的每张图片进行人脸检测并获取含驾驶人员人脸的图像数据,包括:获取每一张图片中驾驶人员人脸的坐标;基于获取的驾驶人员人脸的坐标对图片进行裁剪,得到驾驶人员人脸块图像;对得到的所述驾驶人员人脸块图像进行尺寸变换和归一化处理得
到包含驾驶人员人脸的图像数据。
[0007]在一些实施例中,通过以下方式提取所述音频数据的梅尔倒谱系数特征:按照设定的时间间隔对所述音频数据进行分割,并对分割的每个时间间隔段的音频数据进行傅里叶变换得到对应的信号频谱;将得到的所述信号频谱通过Mel滤波器得到Mel频谱;对得到的所述Mel频谱进行倒谱分析得到梅尔倒谱系数特征。
[0008]在一些实施例中,所述多模态情绪识别模型包括resnet18网络、卷积模块、LSTM网络,所述基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,包括以下步骤:将提取的包含驾驶人员人脸的图像数据输入resnet18网络,得到图像特征图;将提取的音频数据的梅尔倒谱系数特征输入四层卷积模块,得到语音特征图;将得到的所述图像特征图和所述语音特征图通过Concat函数进行拼接,得到融合图像和语音的特征数据;将融合图像和语音的特征数据经过两层LSTM网络之后输入多模态情绪识别模型的全连接层,以输出关于所述驾驶人员的情绪二维值。
[0009]在一些实施例中,通过以下方式训练多模态情绪识别模型:采集包含驾驶人员人脸的若干个视频数据样本;对获取的每个视频数据样本按照设定的时间间隔进行分割,并对分割的每个时间间隔段的视频数据进行情绪二维值标注;将含有情绪二维值标注的视频数据样本作为视频数据训练集,利用该视频数据训练集训练所述多模态情绪识别模型,直至所述多模态情绪识别模型的损失函数小于设定的阈值,得到训练好的多模态情绪识别模型。
[0010]在一些实施例中,通过以下方式采集包含驾驶人员人脸的若干个视频数据样本:基于汽车座舱内的监控设备采集包含驾驶人员人脸的若干个视频数据样本;或者基于网络爬取采集包含驾驶人员人脸的若干个视频数据样本。
[0011]在一些实施例中,基于所述情绪二维值将所驾驶人员的当前情绪分为高兴、很高兴、兴奋、紧张、愤怒、沮丧、抑郁、无聊、疲劳、平静、放松、满意中的一种或多种。
[0012]本申请实施例提供的一种多模态情绪识别装置,应用于汽车座舱系统,所述装置包括:获取模块,用于基于汽车座舱内的监控设备获取驾驶人员的视频数据;预处理模块,用于对所述视频数据进行预处理,包括:从所述视频数据中提取包含驾驶人员人脸的图像数据,以及从所述视频数据中提取音频数据,并提取所述音频数据的梅尔倒谱系数特征;识别模块,用于基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,以根据所述情绪二维值得到驾驶人员的当前情绪,其中,所述情绪二维值包括情绪的强烈程度值和情绪的积极程度值。
[0013]本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一项所述的多模态情绪
识别方法的步骤。
[0014]本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项所述的多模态情绪识别方法的步骤。
[0015]本申请所述的一种多模态情绪识别方法、装置、电子设备及存储介质,获取驾驶人员的视频数据;对所述视频数据进行预处理,包括:从所述视频数据中提取包含驾驶人员人脸的图像数据,以及从所述视频数据中提取音频数据,并提取所述音频数据的梅尔倒谱系数特征;基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,以根据所述情绪二维值得到驾驶人员的当前情绪;其中,采用的多模态情绪识别模型融合了视频模态和语音模态,并且具有较小的参数量,满足智能座舱移动端的适用需求。
附图说明
[0016]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0017]图1示出了本申请实施例提供的多模态情绪识别方法的流程图;图2示出了本申请实施例提供的从视频数据中提取包含驾驶人员人脸的图像数据的流程图;图3示出了本申请实施例提供的提取音频数据的梅尔倒谱系数特征的流程图;图4示出了本申请实施例提供的多模态情绪识别模型的结构示意图;图5示出了本申请实施例提供的基于训练好的多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态情绪识别方法,其特征在于,应用于汽车座舱系统,所述方法包括以下步骤:获取驾驶人员的视频数据;对所述视频数据进行预处理,包括:从所述视频数据中提取包含驾驶人员人脸的图像数据,以及从所述视频数据中提取音频数据,并提取所述音频数据的梅尔倒谱系数特征;基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,以根据所述情绪二维值得到驾驶人员的当前情绪,其中,所述情绪二维值包括情绪的强烈程度值和情绪的积极程度值。2.根据权利要求1所述一种多模态情绪识别方法,其特征在于,所述从所述视频数据中提取包含驾驶人员人脸的图像数据,包括以下步骤:对所述视频数据按照设定的时间间隔抽帧一张图片;对获取的每张图片进行人脸检测并获取含驾驶人员人脸的图像数据,包括:获取每一张图片中驾驶人员人脸的坐标;基于获取的驾驶人员人脸的坐标对图片进行裁剪,得到驾驶人员人脸块图像;对得到的所述驾驶人员人脸块图像进行尺寸变换和归一化处理得到包含驾驶人员人脸的图像数据。3.根据权利要求2所述一种多模态情绪识别方法,其特征在于,通过以下方式提取所述音频数据的梅尔倒谱系数特征:按照设定的时间间隔对所述音频数据进行分割,并对分割的每个时间间隔段的音频数据进行傅里叶变换得到对应的信号频谱;将得到的所述信号频谱通过Mel滤波器得到Mel频谱;对得到的所述Mel频谱进行倒谱分析得到梅尔倒谱系数特征。4.根据权利要求3所述一种多模态情绪识别方法,其特征在于,所述多模态情绪识别模型包括resnet18网络、卷积模块、LSTM网络,所述基于训练好的多模态情绪识别模型,根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值,包括以下步骤:将提取的包含驾驶人员人脸的图像数据输入resnet18网络,得到图像特征图;将提取的音频数据的梅尔倒谱系数特征输入四层卷积模块,得到语音特征图;将得到的所述图像特征图和所述语音特征图通过Concat函数进行拼接,得到融合图像和语音的特征数据;将融合图像和语音的特征数据经过两层LSTM网络之后输入多模态情绪识别模型的全连接层,以输出关于所述驾驶人员的情绪二...

【专利技术属性】
技术研发人员:李少君汪骏张富国
申请(专利权)人:深圳市徐港电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1