情绪识别方法、装置、终端设备及计算机可读存储介质制造方法及图纸

技术编号：34564319 阅读：12 留言：0更新日期：2022-08-17 12:53

本申请公开了一种情绪识别方法、装置、终端设备及计算机可读存储介质，该方法包括：基于输入的连续帧视频序列，提取每一帧图像的人脸区域作为训练样本；将训练样本输入三维卷积神经网络模型，获取每个视频帧序列的全局特征图；对全局特征图进行分块，将生成的局部特征图与全局特征图作为特征分块，提取每个特征分块的一维特征输入至三维卷积神经网络模型，输出初始预测情绪分数，并确定每个特征分块的初始权重，根据每个特征分块的初始权重确定对应的目标权重；利用目标权重对初始预测情绪分数进行加权，生成目标预测情绪分数。本申请结合三维卷积神经网络和特征图分块，增强未遮挡部分的置信度，提高了情绪识别的精度和效率，适用范围更广。用范围更广。用范围更广。

全部详细技术资料下载

【技术实现步骤摘要】
情绪识别方法、装置、终端设备及计算机可读存储介质

[0001]本申请涉及情绪识别
，尤其涉及一种情绪识别方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]情绪识别是人工智能领域的研究热点，已广泛应用于机器人制造、人机交互、通信、自动驾驶和健康监测等领域。在健康监测领域中，健康监测系统通过实时分析直播视频中的作业人员的面部表情情况，实时捕捉作业人员的健康情绪，有利于及时发现和疏导心理健康问题。在实际应用中，通常采用两种情绪分类指标以进行情绪识别，一种是基于离散维度，这种方式下的情绪划分往往相对简单并容易理解；另一种是基于连续维度，而这种方式更符合人类情绪连续性的特点。
[0003]目前，常见的情绪识别方式包括两种：一种是抽取视频流中的图像帧并提取人脸区域，对目标进行表情识别，结合前后帧的结果进行加权来进行情绪识别，而这种针对视频流的情绪识别方法，不仅没有考虑实际场景中可能存在遮挡的情况，而且在计算时需要先对单帧图像进行识别，再对多帧结果进行综合评判，因此运行效率较低，对于视频流中的人员情绪的时序关联捕获能力较差。另一种则是利用多路自注意力机制的深度卷积神经网络获取学生表情图像的局部特征、遮挡特征和整体特征，通过对这些特征进行自适应加权合并得到表情特征，以识别学生表情。而这种方式虽然考虑了面部遮挡情况，但是其只能处理单帧图像，属于静态情绪识别，因此该方法不一定能准确反映人的真实情绪情况。

技术实现思路

[0004]本申请的目的在于提供一种情绪识别方法、装置、终端设备及计算机可

【技术保护点】

【技术特征摘要】
1.一种情绪识别方法，其特征在于，包括：基于输入的连续帧视频序列，提取每一帧图像的人脸区域作为训练样本；将训练样本输入三维卷积神经网络模型，获取每个视频帧序列的全局特征图；对全局特征图进行分块，将生成的局部特征图与全局特征图作为特征分块，提取每个特征分块的一维特征；将一维特征输入三维卷积神经网络模型，输出初始预测情绪分数，并确定每个特征分块的初始权重，根据每个特征分块的初始权重确定对应的目标权重；利用目标权重对初始预测情绪分数进行加权，生成目标预测情绪分数。2.根据权利要求1所述的情绪识别方法，其特征在于，在所述提取每一帧图像的人脸区域作为训练样本之前，包括：提取每一帧图像的人脸区域，得到对应的矩形框坐标及置信度：B
i
,PR
i
＝YOLO(frame
t
)；式中，frame
t
代表第t帧视频帧，B
i
代表该视频帧中标定第i个人脸的矩形框的左上角及右下角坐标，PR
i
代表第i个人脸的置信度；获取每一帧图像中置信度最高的矩形框区域，利用双线性插值将所有矩形框区域处理为同一大小。3.根据权利要求2所述的情绪识别方法，其特征在于，所述提取每一帧图像的人脸区域，包括：利用经过WIDER Face数据集预训练过的YOLOv3模型提取每一帧图像的人脸区域。4.根据权利要求1所述的情绪识别方法，其特征在于，所述提取每个特征分块的一维特征，包括：利用一维卷积神经网络模型提取每个特征分块的一维特征。5.根据权利要求1所述的情绪识别方法，其特征在于，所述确定每个特征分块的初始权重，包括：确定每个特征分块的损失函数，计算总的损失函数：设置总的损失函数阈值，利用训练样本对三维卷积神经网络模型训练至模型收敛，确定此时每个特征分块的初始权重。6.根据权利要求5所述的情绪识别方法，...

【专利技术属性】
技术研发人员：刘羽中，李华亮，范圣平，沈雅利，王琪如，谢庭军，翟永昌，
申请(专利权)人：广东电网有限责任公司电力科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人