说话状态识别方法及模型训练方法、装置、车辆、介质制造方法及图纸

技术编号：34959496 阅读：11 留言：0更新日期：2022-09-17 12:38

本申请实施例公开了一种说话状态识别方法及模型训练方法、装置、车辆、介质，其中，说话状态识别方法包括：获取目标对象的面部图像帧序列；获取面部图像帧序列中各图像帧的嘴部关键点信息；基于嘴部关键点信息，确定面部图像帧序列对应的嘴部关键点的位移特征，位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化；根据位移特征确定目标对象的说话状态的识别结果。象的说话状态的识别结果。象的说话状态的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
说话状态识别方法及模型训练方法、装置、车辆、介质

[0001]本申请涉及但不限于信息
，尤其涉及一种说话状态识别方法及模型训练方法、装置、车辆、介质。

技术介绍

[0002]唇动检测技术，可以利用计算机视觉技术从视频图像中识别人脸，提取人脸的嘴部区域的变化特征，从而识别嘴部区域运动状态。然而，相关技术中的唇动检测的准确度较低。

技术实现思路

[0003]有鉴于此，本申请实施例至少提供一种说话状态识别方法及模型训练方法、装置、车辆、介质。
[0004]本申请实施例的技术方案是这样实现的：
[0005]一方面，本申请实施例提供一种说话状态识别方法，所述方法包括：获取目标对象的面部图像帧序列；获取所述面部图像帧序列中各图像帧的嘴部关键点信息；基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；根据所述位移特征确定所述目标对象的说话状态的识别结果。
[0006]另一方面，本申请实施例提供一种模型训练方法，所述方法包括：
[0007]获取目标对象的样本面部图像帧序列，其中，所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签；
[0008]获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息；
[0009]基于所述嘴部关键点信息，确定所述样本面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多...

【技术保护点】

【技术特征摘要】
1.一种说话状态识别方法，包括：获取目标对象的面部图像帧序列；获取所述面部图像帧序列中各图像帧的嘴部关键点信息；基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化；根据所述位移特征确定所述目标对象的说话状态的识别结果。2.根据权利要求1所述的方法，其中，所述获取所述面部图像帧序列中各图像帧的嘴部关键点信息，包括：针对所述面部图像帧序列中的每一面部图像帧进行人脸关键点检测，以获取所述每一面部图像帧中的嘴部关键点信息。3.根据权利要求1或2所述的方法，其中，所述获取目标对象的面部图像帧序列，包括：以滑动窗口的方式从包含所述目标对象的面部信息的视频流中，依次取出预设长度的图像帧序列，作为所述目标对象的面部图像帧序列，其中，所述滑动窗口的滑动步长不小于1，且所述滑动窗口的滑动步长不大于所述预设长度。4.根据权利要求3所述的方法，其中，所述面部图像帧序列包括多个所述面部图像帧；所述基于所述嘴部关键点信息，确定所述面部图像帧序列对应的嘴部关键点的位移特征，包括：针对每一面部图像帧，执行以下步骤：根据每一嘴部关键点在所述面部图像帧和所述面部图像帧的相邻帧中的嘴部关键点信息，确定每一嘴部关键点的帧间位移信息；根据所述面部图像帧中的多个所述嘴部关键点对应的嘴部关键点信息，确定所述面部图像帧中的多个嘴部关键点的帧内差异信息；基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征；根据所述面部图像帧序列中的多个所述面部图像帧分别对应的嘴部关键点的位移特征，确定所述面部图像帧序列对应的嘴部关键点的位移特征。5.根据权利要求4所述的方法，其中，所述基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征，包括：确定所述面部图像帧序列中各图像帧中目标对象的眼嘴距离；根据所述面部图像帧序列中各图像帧中目标对象的眼嘴距离，确定参考距离；将所述参考距离作为归一化分母，分别对所述多个嘴部关键点各自的所述帧间位移信息和所述帧内差异信息进行归一化处理，得到处理后的帧间位移信息和处理后的帧内差异信息；基于所述多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息，确定所述面部图像帧对应的嘴部关键点的位移特征。6.根据权利要求4或5所述的方法，其中，所述根据所述位移特征确定所述目标对象的说话状态的识别结果，包括：采用经过训练的关键点特征提取网络对所述位移特征进行处理，得到所述面部图像帧序列的空间特征；采用经过训练的时序特征提取网络对所述空间特征进行处理，得到所述面部图像帧序
列的时空特征；基于所述时空特征确定所述目标对象的说话状态的识别结果。7.根据权利要求6所述的方法，其中，所述基于所述时空特征确定所述目标对象的说话状态的识别结果，包括：根据所述时空特征确定所述目标对象与所述面部图像帧序列对应的说话状态的识别结果，作为所述目标对象在所述面部图像帧序列中的最后一个图像帧中的说话状态的识别结果；所述方法还包括：根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定所述目标对象说话的起始帧和结束帧。8.根据权利要求7所述的方法，其中，所述说话状态的识别结果包括所述目标对象处于表征正在说话的第一状态的第一置信度、或者所述目标对象处于表征未在说话的第二状态的第二置信度；所述根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果，确定所述目标对象说话的起始帧和结束帧，包括：将所述面部图像帧序列中的每一所述图像帧作为待判断图像帧，针对所述待判断图像帧执行以下步骤之一：在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值，且所述待判断图像...

【专利技术属性】
技术研发人员：范栋轶，李潇婕，王飞，钱晨，
申请(专利权)人：上海商汤临港智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人