一种多模态情绪识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36408045 阅读：26 留言：0更新日期：2023-01-18 10:17

本申请涉及情绪识别技术领域，具体提供一种多模态情绪识别方法、装置、电子设备及存储介质，利用数据标注将要处理的语音和图像在时间维度上进行对齐，多模态情绪识别模型中利用resnet18网络和语音模型将两个模态数据在特征层进行融合，最后利用LSTM网络捕获数据中的上下文信息，输出情绪二维值，以根据情绪二维值得到驾驶人员你的当前情绪，本申请提供的一种多模态情绪识别方法，利用语音和图像两个模态进行情绪识别，并且进行两个模态数据融合时，参数量较小，利于在移动端部署该多模态情绪识别模型，符合汽车座舱系统车机主板的的计算能力，同时提升对驾驶人员情绪识别的准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态情绪识别方法、装置、电子设备及存储介质

[0001]本申请涉及情绪识别
，具体而言，涉及一种多模态情绪识别方法、装置、电子设备及存储介质。

技术介绍

[0002]智能车辆是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统，它集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术，是典型的高新技术综合体。目前智能汽车主要朝着智能座舱和智能驾驶两大方向发展，而智能座舱实现难度相对低且性价比更高，已经成为智能化主线上率先落地场景，其中，情绪识别是智能座舱系统的基础功能之一，通过情绪识别功能识别出的驾驶人员的情绪特征，进而自动调节智能座舱系统的音乐、灯光等场景，最为重要的是能够对“路怒症”加以预防，从而提升驾驶体验感以及安全性能。
[0003]现有技术中，智能座舱系统一般采用单一模态进行情绪识别，如通过摄像头仅仅采集驾驶人员面部特征来识别驾驶人员情绪的方式，导致情绪识别准确率不高；尽管，在其他应用领域，存在通过多模态进行情绪识别的方式，但是其为了解决多模态间的融合问题，计算量太大，...

【技术保护点】

【技术特征摘要】
1.一种多模态情绪识别方法，其特征在于，应用于汽车座舱系统，所述方法包括以下步骤：获取驾驶人员的视频数据；对所述视频数据进行预处理，包括：从所述视频数据中提取包含驾驶人员人脸的图像数据，以及从所述视频数据中提取音频数据，并提取所述音频数据的梅尔倒谱系数特征；基于训练好的多模态情绪识别模型，根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值，以根据所述情绪二维值得到驾驶人员的当前情绪，其中，所述情绪二维值包括情绪的强烈程度值和情绪的积极程度值。2.根据权利要求1所述一种多模态情绪识别方法，其特征在于，所述从所述视频数据中提取包含驾驶人员人脸的图像数据，包括以下步骤：对所述视频数据按照设定的时间间隔抽帧一张图片；对获取的每张图片进行人脸检测并获取含驾驶人员人脸的图像数据，包括：获取每一张图片中驾驶人员人脸的坐标；基于获取的驾驶人员人脸的坐标对图片进行裁剪，得到驾驶人员人脸块图像；对得到的所述驾驶人员人脸块图像进行尺寸变换和归一化处理得到包含驾驶人员人脸的图像数据。3.根据权利要求2所述一种多模态情绪识别方法，其特征在于，通过以下方式提取所述音频数据的梅尔倒谱系数特征：按照设定的时间间隔对所述音频数据进行分割，并对分割的每个时间间隔段的音频数据进行傅里叶变换得到对应的信号频谱；将得到的所述信号频谱通过Mel滤波器得到Mel频谱；对得到的所述Mel频谱进行倒谱分析得到梅尔倒谱系数特征。4.根据权利要求3所述一种多模态情绪识别方法，其特征在于，所述多模态情绪识别模型包括resnet18网络、卷积模块、LSTM网络，所述基于训练好的多模态情绪识别模型，根据输入的所述图像数据和所述梅尔倒谱系数特征得到关于所述驾驶人员的情绪二维值，包括以下步骤：将提取的包含驾驶人员人脸的图像数据输入resnet18网络，得到图像特征图；将提取的音频数据的梅尔倒谱系数特征输入四层卷积模块，得到语音特征图；将得到的所述图像特征图和所述语音特征图通过Concat函数进行拼接，得到融合图像和语音的特征数据；将融合图像和语音的特征数据经过两层LSTM网络之后输入多模态情绪识别模型的全连接层，以输出关于所述驾驶人员的情绪二...

【专利技术属性】
技术研发人员：李少君，汪骏，张富国，
申请(专利权)人：深圳市徐港电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人