说话状态识别方法及模型训练方法、装置、车辆、介质制造方法及图纸

技术编号:34959496 阅读:11 留言:0更新日期:2022-09-17 12:38
本申请实施例公开了一种说话状态识别方法及模型训练方法、装置、车辆、介质,其中,说话状态识别方法包括:获取目标对象的面部图像帧序列;获取面部图像帧序列中各图像帧的嘴部关键点信息;基于嘴部关键点信息,确定面部图像帧序列对应的嘴部关键点的位移特征,位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化;根据位移特征确定目标对象的说话状态的识别结果。象的说话状态的识别结果。象的说话状态的识别结果。

【技术实现步骤摘要】
说话状态识别方法及模型训练方法、装置、车辆、介质


[0001]本申请涉及但不限于信息
,尤其涉及一种说话状态识别方法及模型训练方法、装置、车辆、介质。

技术介绍

[0002]唇动检测技术,可以利用计算机视觉技术从视频图像中识别人脸,提取人脸的嘴部区域的变化特征,从而识别嘴部区域运动状态。然而,相关技术中的唇动检测的准确度较低。

技术实现思路

[0003]有鉴于此,本申请实施例至少提供一种说话状态识别方法及模型训练方法、装置、车辆、介质。
[0004]本申请实施例的技术方案是这样实现的:
[0005]一方面,本申请实施例提供一种说话状态识别方法,所述方法包括:获取目标对象的面部图像帧序列;获取所述面部图像帧序列中各图像帧的嘴部关键点信息;基于所述嘴部关键点信息,确定所述面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化;根据所述位移特征确定所述目标对象的说话状态的识别结果。
[0006]另一方面,本申请实施例提供一种模型训练方法,所述方法包括:
[0007]获取目标对象的样本面部图像帧序列,其中,所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签;
[0008]获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息;
[0009]基于所述嘴部关键点信息,确定所述样本面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多个样本图像帧之间的位置变化;
[0010]利用待训练的模型中的识别结果生成网络,根据所述位移特征确定所述目标对象的说话状态的识别结果;
[0011]基于所述识别结果和所述样本标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0012]再一方面,本申请实施例提供一种说话状态识别装置,所述装置包括:
[0013]第一获取模块,用于获取目标对象的面部图像帧序列;
[0014]第二获取模块,用于获取所述面部图像帧序列中各图像帧的嘴部关键点信息;
[0015]第一确定模块,用于基于所述嘴部关键点信息,确定所述面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化;
[0016]第二确定模块,用于根据所述位移特征确定所述目标对象的说话状态的识别结
果。
[0017]又一方面,本申请实施例提供一种模型训练装置,包括:
[0018]第三获取模块,用于获取目标对象的样本面部图像帧序列,其中,所述样本面部图像帧序列标注有表征所述目标对象的说话状态的样本标签;
[0019]第四获取模块,用于获取所述样本面部图像帧序列中各样本图像帧的嘴部关键点信息;
[0020]第三确定模块,用于基于所述嘴部关键点信息,确定所述样本面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述样本面部图像帧序列中的多个样本图像帧之间的位置变化;
[0021]第四确定模块,用于利用待训练的模型中的识别结果生成网络,根据所述位移特征确定所述目标对象的说话状态的识别结果;
[0022]更新模块,用于基于所述识别结果和所述样本标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0023]又一方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
[0024]又一方面,本申请实施例提供一种车辆,包括:
[0025]车载相机,用于拍摄包含目标对象的面部图像帧序列;
[0026]车机,与所述车载相机连接,用于从所述车载相机获取所述目标对象的面部图像帧序列;获取所述面部图像帧序列中各图像帧的嘴部关键点信息;基于所述嘴部关键点信息,确定所述面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化;根据所述位移特征确定所述目标对象的说话状态的识别结果。
[0027]又一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
[0028]又一方面,本申请实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算机设备中运行时,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
[0029]又一方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。
[0030]本申请实施例中,首先,获取目标对象的面部图像帧序列,获取面部图像帧序列中各图像帧的嘴部关键点信息;这样,能够获取目标对象在面部图像帧序列中各图像帧的嘴部关键点信息;其次,基于嘴部关键点信息,确定面部图像帧序列对应的嘴部关键点的位移特征,位移特征表征嘴部关键点在面部图像帧序列中的多个图像帧之间的位置变化;这样,面部图像帧序列对应的嘴部关键点的位移特征,能够表示目标对象在面部图像帧序列中嘴部关键点的位置变化过程;最后,根据位移特征确定目标对象的说话状态的识别结果;这样,能够提升确定出的目标对象的说话状态的识别结果的精确度。在本申请实施例中,由于面部图像帧序列对应的嘴部关键点的位移特征,能够表示目标对象在面部图像帧序列中嘴
部关键点的位置变化过程,根据位移特征确定目标对象的说话状态的识别结果,能够精确识别目标对象的说话状态,从而能够提升说话状态的识别的精确度。并且,相较于利用面部图像帧裁剪得到的嘴部区域图像序列进行说话状态识别,上述方案利用嘴部关键点的位移特征,能够降低说话状态识别所需的计算量,从而降低执行说话状态识别方法的计算机设备的硬件要求。此外,利用嘴部关键点的位移特征,对不同脸型、纹理等外观信息的面部图像帧都能取得良好的识别效果,从而提高了说话状态识别的泛化能力。
[0031]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请的技术方案。
附图说明
[0032]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0033]图1为本申请实施例提供的一种说话状态识别方法的实现流程示意图;
[0034]图2为本申请实施例提供的一种说话状态识别方法的实现流程示意图;
[0035]图3为本申请实施例提供的一种脸部关键点示意图;
[0036]图4为本申请实施例提供的一种说话状态识别方法的实现流程示意图;
[0037]图5为本申请实施例提供的一种说话状态识别方法的实现流程示意图;
[0038]图6本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话状态识别方法,包括:获取目标对象的面部图像帧序列;获取所述面部图像帧序列中各图像帧的嘴部关键点信息;基于所述嘴部关键点信息,确定所述面部图像帧序列对应的嘴部关键点的位移特征,所述位移特征表征所述嘴部关键点在所述面部图像帧序列中的多个图像帧之间的位置变化;根据所述位移特征确定所述目标对象的说话状态的识别结果。2.根据权利要求1所述的方法,其中,所述获取所述面部图像帧序列中各图像帧的嘴部关键点信息,包括:针对所述面部图像帧序列中的每一面部图像帧进行人脸关键点检测,以获取所述每一面部图像帧中的嘴部关键点信息。3.根据权利要求1或2所述的方法,其中,所述获取目标对象的面部图像帧序列,包括:以滑动窗口的方式从包含所述目标对象的面部信息的视频流中,依次取出预设长度的图像帧序列,作为所述目标对象的面部图像帧序列,其中,所述滑动窗口的滑动步长不小于1,且所述滑动窗口的滑动步长不大于所述预设长度。4.根据权利要求3所述的方法,其中,所述面部图像帧序列包括多个所述面部图像帧;所述基于所述嘴部关键点信息,确定所述面部图像帧序列对应的嘴部关键点的位移特征,包括:针对每一面部图像帧,执行以下步骤:根据每一嘴部关键点在所述面部图像帧和所述面部图像帧的相邻帧中的嘴部关键点信息,确定每一嘴部关键点的帧间位移信息;根据所述面部图像帧中的多个所述嘴部关键点对应的嘴部关键点信息,确定所述面部图像帧中的多个嘴部关键点的帧内差异信息;基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息,确定所述面部图像帧对应的嘴部关键点的位移特征;根据所述面部图像帧序列中的多个所述面部图像帧分别对应的嘴部关键点的位移特征,确定所述面部图像帧序列对应的嘴部关键点的位移特征。5.根据权利要求4所述的方法,其中,所述基于所述多个嘴部关键点各自的帧间位移信息以及所述帧内差异信息,确定所述面部图像帧对应的嘴部关键点的位移特征,包括:确定所述面部图像帧序列中各图像帧中目标对象的眼嘴距离;根据所述面部图像帧序列中各图像帧中目标对象的眼嘴距离,确定参考距离;将所述参考距离作为归一化分母,分别对所述多个嘴部关键点各自的所述帧间位移信息和所述帧内差异信息进行归一化处理,得到处理后的帧间位移信息和处理后的帧内差异信息;基于所述多个嘴部关键点各自的处理后的帧间位移信息以及处理后的帧内差异信息,确定所述面部图像帧对应的嘴部关键点的位移特征。6.根据权利要求4或5所述的方法,其中,所述根据所述位移特征确定所述目标对象的说话状态的识别结果,包括:采用经过训练的关键点特征提取网络对所述位移特征进行处理,得到所述面部图像帧序列的空间特征;采用经过训练的时序特征提取网络对所述空间特征进行处理,得到所述面部图像帧序
列的时空特征;基于所述时空特征确定所述目标对象的说话状态的识别结果。7.根据权利要求6所述的方法,其中,所述基于所述时空特征确定所述目标对象的说话状态的识别结果,包括:根据所述时空特征确定所述目标对象与所述面部图像帧序列对应的说话状态的识别结果,作为所述目标对象在所述面部图像帧序列中的最后一个图像帧中的说话状态的识别结果;所述方法还包括:根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果,确定所述目标对象说话的起始帧和结束帧。8.根据权利要求7所述的方法,其中,所述说话状态的识别结果包括所述目标对象处于表征正在说话的第一状态的第一置信度、或者所述目标对象处于表征未在说话的第二状态的第二置信度;所述根据所述目标对象在多个所述滑动窗口中分别取出的面部图像帧序列中的最后一个图像帧中的说话状态的识别结果,确定所述目标对象说话的起始帧和结束帧,包括:将所述面部图像帧序列中的每一所述图像帧作为待判断图像帧,针对所述待判断图像帧执行以下步骤之一:在所述待判断图像帧对应的所述第一置信度大于或等于第一预设阈值,且所述待判断图像...

【专利技术属性】
技术研发人员:范栋轶李潇婕王飞钱晨
申请(专利权)人:上海商汤临港智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1