图像处理方法及模型生成方法、装置、车辆、存储介质制造方法及图纸

技术编号:34332651 阅读:23 留言:0更新日期:2022-07-31 02:22
本申请实施例公开了一种图像处理方法及模型生成方法、装置、车辆、存储介质,其中,图像处理方法包括:获取包含嘴部对象的图像帧序列;对图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到每一图像帧的嘴部关键点特征;根据图像帧序列中多个图像帧的嘴部关键点特征,生成音节分类特征;其中,音节分类特征表征图像帧序列中嘴部对象的口型对应的音节类别;在预设关键词库中确定与音节分类特征匹配的关键词。的关键词。的关键词。

Image processing method and model generation method, device, vehicle, storage medium

【技术实现步骤摘要】
图像处理方法及模型生成方法、装置、车辆、存储介质


[0001]本申请涉及但不限于信息
,尤其涉及一种图像处理方法及模型生成方法、装置、车辆、存储介质。

技术介绍

[0002]唇语识别技术,可以利用计算机视觉技术从视频图像中识别人脸,提取人脸的嘴部区域的变化特征,从而识别出视频对应的文本内容。然而,相关技术中的唇语识别的准确度较低。

技术实现思路

[0003]有鉴于此,本申请实施例至少提供一种图像处理方法及模型生成方法、装置、车辆、存储介质。
[0004]本申请实施例的技术方案是这样实现的:
[0005]一方面,本申请实施例提供一种图像处理方法,所述方法包括:获取包含嘴部对象的图像帧序列;对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征;根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征;其中,所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别;在预设关键词库中确定与所述音节分类特征匹配的关键词。
[0006]在一些实施例中,所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征,包括:确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息;针对所述图像帧序列中的每一图像帧,根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征。相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别,本申请实施例利用多个嘴部关键点在多个图像帧的位置信息得到嘴部关键点特征,使得嘴部关键点特征能够表示图像帧序列对应的说话过程中嘴部关键点的变化过程,从而更好地提取说话过程中口型的变化特征;这样,利用嘴部关键点特征进行唇语识别,能够提升唇语识别的准确度。
[0007]在一些实施例中,所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息;所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征,包括:针对每一所述嘴部关键点,根据所述嘴部关键点在所述图像帧中的位置信息,以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息,确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差,作为所述嘴部关键点的帧间差异信息;针对每一所述嘴部关键点,根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差,确定所述嘴部关键点的帧内差异信息。上述实施例中,利用每个嘴部关键点在相邻图像帧的位置信息的帧间差异信息,和这个嘴部关键点与预设嘴部关键点的位置信息的帧内差异信息,得到嘴部关键点特征,提升确定每一帧图像中的口型的准确度;并且,嘴部关键点
特征也能够表示图像帧序列对应的说话过程中嘴部关键点在帧间变化过程;这样,可以更好地提取说话过程中口型的变化特征,进而能够提升唇语识别的准确度。
[0008]在一些实施例中,所述根据所述图像帧序列中多个图像帧的嘴部关键点特征,生成音节分类特征,包括:分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征;对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取,得到所述嘴部对象的时空特征;基于所述嘴部对象的时空特征进行音节分类特征提取,得到所述嘴部对象的音节分类特征。上述实施例支持通过卷积神经网络提取时空特征,所需的计算量较少,能够降低计算资源的消耗,降低唇语识别的计算机设备的硬件要求。尤其,采用卷积神经网络能够降低对芯片的计算能力的要求,从而本申请实施例提供的图像处理方法能够通过更多轻量化的芯片实现,使更多硬件支持本申请实施例的唇语识别过程中的图像处理方法,提升了唇语识别的通用性,例如车机等计算机设备也可以实现唇语识别。
[0009]在一些实施例中,所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征,包括:对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合,得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征;对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合,得到所述嘴部对象在每一图像帧的空间特征。上述实施例中,对嘴部对象的至少两个嘴部关键点在每一图像帧的帧间差异信息和帧内差异信息分别进行融合,得到表示嘴部关键点之间的帧间差异信息的帧间差异特征,以及表示嘴部关键点之间的帧内差异信息的帧内差异特征,再对嘴部关键点在每一图像帧的帧间差异特征和帧内差异特征进行特征融合,能够更好地提取嘴部对象在每一图像帧的空间特征,从而提升确定每一帧图像中的口型的准确度。
[0010]在一些实施例中,所述获取包含嘴部对象的图像帧序列,包括:获取图像画面包含所述嘴部对象的视频;对所述嘴部对象进行唇动识别,将所述嘴部对象处于说话状态的多个视频帧确定为图像帧序列。这样,使得图像帧序列能够至少覆盖设定对象说话的完整过程,且通过唇动识别使图像帧序列包括的与说话过程无关的图像帧减少,利用这样得到的图像帧序列进行图像处理,得到匹配的关键词,能够进一步提升唇语识别的准确度,降低唇语识别的图像处理过程所需的计算量。
[0011]在一些实施例中,所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征,包括:利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理,得到音节分类特征;所述在预设关键词库中确定与所述音节分类特征匹配的关键词,包括:利用经过训练的分类网络,在预设关键词库中确定与所述音节分类特征匹配的关键词。上述实施例中,由于深度学习模型中的各网络是可学习的,可以提升提取的音节分类特征以及与音节分类特征匹配的关键词的准确性,从而可以使得图像处理得到的关键词更精确,能够提升唇语识别的准确度。
[0012]在一些实施例中,所述音节特征提取网络包括空间特征提取子网络、时间特征提取子网络和音节分类特征提取子网络;所述利用模型中的音节特征提取网络,根据所述至少一个嘴部关键点特征,确定音节分类特征,包括:利用所述空间特征提取子网络,分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的
空间特征;利用所述时间特征提取子网络,对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取,得到所述嘴部对象的时空特征;利用所述音节分类特征提取子网络,对所述嘴部对象的每一所述时空特征进行分类特征提取,得到所述嘴部对象的音节分类特征。
[0013]在一些实施例中,所述获取包含嘴部对象的图像帧序列,包括:对获取到的包含嘴部对象的原始图像序列进行图像插帧,得到所述图像帧序列;或者,基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点,对所述原始图像序列进行插帧,得到所述图像帧序列。这样,利用插帧处理的图像帧序列进行唇语识别,在唇语识别过程中对采集得到的原始图像序列的帧数不作要求,可以提升唇语识别过程中的图像识别方法的强健性。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:获取包含嘴部对象的图像帧序列;对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征;根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征;其中,所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别;在预设关键词库中确定与所述音节分类特征匹配的关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征,包括:确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息;针对所述图像帧序列中的每一图像帧,根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征。3.根据权利要求2所述的方法,其特征在于,所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息;所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征,包括:针对每一所述嘴部关键点,根据所述嘴部关键点在所述图像帧中的位置信息,以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息,确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差,作为所述嘴部关键点的帧间差异信息;针对每一所述嘴部关键点,根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差,确定所述嘴部关键点的帧内差异信息。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述图像帧序列中多个图像帧的嘴部关键点特征,生成音节分类特征,包括:分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征;对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取,得到所述嘴部对象的时空特征;基于所述嘴部对象的时空特征进行音节分类特征提取,得到所述嘴部对象的音节分类特征。5.根据权利要求4所述的方法,其特征在于,所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征,包括:对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合,得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征;对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合,得到所述嘴部对象在每一图像帧的空间特征。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征,包括:利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理,得到音节分类特征;
所述在预设关键词库中确定与所述音节分类特征匹配的关键词,包括:利用经过训练的分类网络,在预设关键词库中确定与所述音节分类特征匹配的关键词。7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取包含嘴部对象的图像帧序列,包括:对获取到的包含嘴部对象的原始图像序列进行图像插帧,得到所述图像帧序列;或者,基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点,对所述原始图像序列进行插帧,得到所述图像帧序列。8.一种生成唇语识别模型的方法,其特征在于,所述方法包括:获取包含嘴部对象的样本图像帧序列;其中,所述样本图像帧序列标注有关键词标签;对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取,得到所述每一样本图像帧的嘴部关键点特征;利用待训练的模型,根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征,生成音节分类特征,并在预...

【专利技术属性】
技术研发人员:康硕李潇婕王飞钱晨
申请(专利权)人:上海商汤临港智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1