情绪识别方法、装置、终端设备及计算机可读存储介质制造方法及图纸

技术编号:34564319 阅读:12 留言:0更新日期:2022-08-17 12:53
本申请公开了一种情绪识别方法、装置、终端设备及计算机可读存储介质,该方法包括:基于输入的连续帧视频序列,提取每一帧图像的人脸区域作为训练样本;将训练样本输入三维卷积神经网络模型,获取每个视频帧序列的全局特征图;对全局特征图进行分块,将生成的局部特征图与全局特征图作为特征分块,提取每个特征分块的一维特征输入至三维卷积神经网络模型,输出初始预测情绪分数,并确定每个特征分块的初始权重,根据每个特征分块的初始权重确定对应的目标权重;利用目标权重对初始预测情绪分数进行加权,生成目标预测情绪分数。本申请结合三维卷积神经网络和特征图分块,增强未遮挡部分的置信度,提高了情绪识别的精度和效率,适用范围更广。用范围更广。用范围更广。

【技术实现步骤摘要】
情绪识别方法、装置、终端设备及计算机可读存储介质


[0001]本申请涉及情绪识别
,尤其涉及一种情绪识别方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]情绪识别是人工智能领域的研究热点,已广泛应用于机器人制造、人机交互、通信、自动驾驶和健康监测等领域。在健康监测领域中,健康监测系统通过实时分析直播视频中的作业人员的面部表情情况,实时捕捉作业人员的健康情绪,有利于及时发现和疏导心理健康问题。在实际应用中,通常采用两种情绪分类指标以进行情绪识别,一种是基于离散维度,这种方式下的情绪划分往往相对简单并容易理解;另一种是基于连续维度,而这种方式更符合人类情绪连续性的特点。
[0003]目前,常见的情绪识别方式包括两种:一种是抽取视频流中的图像帧并提取人脸区域,对目标进行表情识别,结合前后帧的结果进行加权来进行情绪识别,而这种针对视频流的情绪识别方法,不仅没有考虑实际场景中可能存在遮挡的情况,而且在计算时需要先对单帧图像进行识别,再对多帧结果进行综合评判,因此运行效率较低,对于视频流中的人员情绪的时序关联捕获能力较差。另一种则是利用多路自注意力机制的深度卷积神经网络获取学生表情图像的局部特征、遮挡特征和整体特征,通过对这些特征进行自适应加权合并得到表情特征,以识别学生表情。而这种方式虽然考虑了面部遮挡情况,但是其只能处理单帧图像,属于静态情绪识别,因此该方法不一定能准确反映人的真实情绪情况。

技术实现思路

[0004]本申请的目的在于提供一种情绪识别方法、装置、终端设备及计算机可读存储介质,以解决现有的情绪识别方法中存在的运行效率差、识别效果准确性不高的问题。
[0005]为实现上述目的,本申请提供一种情绪识别方法,包括:
[0006]基于输入的连续帧视频序列,提取每一帧图像的人脸区域作为训练样本;
[0007]将训练样本输入三维卷积神经网络模型,获取每个视频帧序列的全局特征图;
[0008]对全局特征图进行分块,将生成的局部特征图与全局特征图作为特征分块,提取每个特征分块的一维特征;
[0009]将一维特征输入三维卷积神经网络模型,输出初始预测情绪分数,并确定每个特征分块的初始权重,根据每个特征分块的初始权重确定对应的目标权重;
[0010]利用目标权重对初始预测情绪分数进行加权,生成目标预测情绪分数。
[0011]进一步,作为优选地,在所述提取每一帧图像的人脸区域作为训练样本之前,包括:
[0012]提取每一帧图像的人脸区域,得到对应的矩形框坐标及置信度:
[0013]B
i
,PR
i
=YOLO(frame
t
);
[0014]式中,frame
t
代表第t帧视频帧,B
i
代表该视频帧中标定第i个人脸的矩形框的左上
角及右下角坐标,PR
i
代表第i个人脸的置信度;
[0015]获取每一帧图像中置信度最高的矩形框区域,利用双线性插值将所有矩形框区域处理为同一大小。
[0016]进一步,作为优选地,所述提取每一帧图像的人脸区域,包括:
[0017]利用经过WIDER Face数据集预训练过的YOLOv3模型提取每一帧图像的人脸区域。
[0018]进一步,作为优选地,所述提取每个特征分块的一维特征,包括:
[0019]利用一维卷积神经网络模型提取每个特征分块的一维特征。
[0020]进一步,作为优选地,所述确定每个特征分块的初始权重,包括:
[0021]确定每个特征分块的损失函数,计算总的损失函数:
[0022]设置总的损失函数阈值,利用训练样本对三维卷积神经网络模型训练至模型收敛,确定此时每个特征分块的初始权重。
[0023]进一步,作为优选地,所述每个特征分块的初始权重为:
[0024][0025]式中,l
i
为第i个特征分块的损失函数,w
1i
为第i个特征分块的权重。
[0026]进一步,作为优选地,所述根据每个特征分块的初始权重确定对应的目标权重,包括:
[0027]基于每个特征分块的一维特征,利用k

means算法确定每个特征分块的一维特征的数据分布中心;
[0028]定义每个特征分块与数据分布中心的欧式距离为权重w
2i

[0029]确定每个特征分块的目标权重为w
i
=w
1i
×
w
2i

[0030]本申请还提供一种情绪识别装置,包括:
[0031]训练样本获取单元,用于基于输入的连续帧视频序列,提取每一帧图像的人脸区域作为训练样本;
[0032]全局特征图获取单元,用于将训练样本输入三维卷积神经网络模型,获取每个视频帧序列的全局特征图;
[0033]特征图分块单元,用于对全局特征图进行分块,将生成的局部特征图与全局特征图作为特征分块,提取每个特征分块的一维特征;
[0034]目标权重计算单元,用于将一维特征输入三维卷积神经网络模型,输出初始预测情绪分数,并确定每个特征分块的初始权重,根据每个特征分块的初始权重确定对应的目标权重;
[0035]情绪识别单元,用于利用目标权重对初始预测情绪分数进行加权,生成目标预测情绪分数。
[0036]本申请还提供一种终端设备,包括:
[0037]一个或多个处理器;
[0038]存储器,与所述处理器耦接,用于存储一个或多个程序;
[0039]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一项所述的情绪识别方法。
[0040]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的情绪识别方法。
[0041]相对于现有技术,本申请的有益效果在于:
[0042]本申请公开了一种情绪识别方法、装置、终端设备及计算机可读存储介质,该方法包括:基于输入的连续帧视频序列,提取每一帧图像的人脸区域作为训练样本;将训练样本输入三维卷积神经网络模型,获取每个视频帧序列的全局特征图;对全局特征图进行分块,将生成的局部特征图与全局特征图作为特征分块,提取每个特征分块的一维特征;将一维特征输入至三维卷积神经网络模型,输出初始预测情绪分数,并确定每个特征分块的初始权重,根据每个特征分块的初始权重确定对应的目标权重;利用目标权重对初始预测情绪分数进行加权,生成目标预测情绪分数。
[0043]本申请通过三维卷积神经网络模型直接提取视频序列中的人脸情绪信息的时间特征和空间特征,提高了人脸情绪识别的精度和效率;通过把视频序列的特征图进行分块,并对每个分块计算自适应权重,增强未遮挡部分的置信度,降低遮挡部分的置信度,解决了实际场景中可能存在的遮挡现象,适用范围更广。...

【技术保护点】

【技术特征摘要】
1.一种情绪识别方法,其特征在于,包括:基于输入的连续帧视频序列,提取每一帧图像的人脸区域作为训练样本;将训练样本输入三维卷积神经网络模型,获取每个视频帧序列的全局特征图;对全局特征图进行分块,将生成的局部特征图与全局特征图作为特征分块,提取每个特征分块的一维特征;将一维特征输入三维卷积神经网络模型,输出初始预测情绪分数,并确定每个特征分块的初始权重,根据每个特征分块的初始权重确定对应的目标权重;利用目标权重对初始预测情绪分数进行加权,生成目标预测情绪分数。2.根据权利要求1所述的情绪识别方法,其特征在于,在所述提取每一帧图像的人脸区域作为训练样本之前,包括:提取每一帧图像的人脸区域,得到对应的矩形框坐标及置信度:B
i
,PR
i
=YOLO(frame
t
);式中,frame
t
代表第t帧视频帧,B
i
代表该视频帧中标定第i个人脸的矩形框的左上角及右下角坐标,PR
i
代表第i个人脸的置信度;获取每一帧图像中置信度最高的矩形框区域,利用双线性插值将所有矩形框区域处理为同一大小。3.根据权利要求2所述的情绪识别方法,其特征在于,所述提取每一帧图像的人脸区域,包括:利用经过WIDER Face数据集预训练过的YOLOv3模型提取每一帧图像的人脸区域。4.根据权利要求1所述的情绪识别方法,其特征在于,所述提取每个特征分块的一维特征,包括:利用一维卷积神经网络模型提取每个特征分块的一维特征。5.根据权利要求1所述的情绪识别方法,其特征在于,所述确定每个特征分块的初始权重,包括:确定每个特征分块的损失函数,计算总的损失函数:设置总的损失函数阈值,利用训练样本对三维卷积神经网络模型训练至模型收敛,确定此时每个特征分块的初始权重。6.根据权利要求5所述的情绪识别方法,...

【专利技术属性】
技术研发人员:刘羽中李华亮范圣平沈雅利王琪如谢庭军翟永昌
申请(专利权)人:广东电网有限责任公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1