【技术实现步骤摘要】
图像处理方法及模型生成方法、装置、车辆、存储介质
[0001]本申请涉及但不限于信息
,尤其涉及一种图像处理方法及模型生成方法、装置、车辆、存储介质。
技术介绍
[0002]唇语识别技术,可以利用计算机视觉技术从视频图像中识别人脸,提取人脸的嘴部区域的变化特征,从而识别出视频对应的文本内容。然而,相关技术中的唇语识别的准确度较低。
技术实现思路
[0003]有鉴于此,本申请实施例至少提供一种图像处理方法及模型生成方法、装置、车辆、存储介质。
[0004]本申请实施例的技术方案是这样实现的:
[0005]一方面,本申请实施例提供一种图像处理方法,所述方法包括:获取包含嘴部对象的图像帧序列;对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征;根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征;其中,所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别;在预设关键词库中确定与所述音节分类特征匹配的关键词。
[0006]在一些实施例中,所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征,包括:确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息;针对所述图像帧序列中的每一图像帧,根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征。相较于利用脸部图像裁剪得到的嘴部区域图像序列进行唇语识别,本申请实施例利用多个嘴部关键点 ...
【技术保护点】
【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:获取包含嘴部对象的图像帧序列;对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征;根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征;其中,所述音节分类特征表征所述图像帧序列中嘴部对象的口型对应的音节类别;在预设关键词库中确定与所述音节分类特征匹配的关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述图像帧序列中的每一图像帧进行嘴部关键点特征提取,得到所述每一图像帧的嘴部关键点特征,包括:确定所述嘴部对象的至少两个嘴部关键点在所述每一图像帧中的位置信息;针对所述图像帧序列中的每一图像帧,根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征。3.根据权利要求2所述的方法,其特征在于,所述嘴部关键点特征包括每一所述嘴部关键点的帧间差异信息和帧内差异信息;所述根据所述图像帧和所述图像帧的相邻帧中的嘴部关键点的位置信息,确定所述图像帧对应的嘴部关键点特征,包括:针对每一所述嘴部关键点,根据所述嘴部关键点在所述图像帧中的位置信息,以及所述嘴部关键点在所述图像帧的相邻图像帧中的位置信息,确定所述嘴部关键点在所述图像帧和相邻帧之间的第一高度差和/或第一宽度差,作为所述嘴部关键点的帧间差异信息;针对每一所述嘴部关键点,根据所述图像帧中的所述嘴部关键点与同一嘴部对象的其他嘴部关键点之间的第二高度差和/或第二宽度差,确定所述嘴部关键点的帧内差异信息。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述图像帧序列中多个图像帧的嘴部关键点特征,生成音节分类特征,包括:分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征;对所述嘴部对象在多个所述图像帧的空间特征进行时间特征提取,得到所述嘴部对象的时空特征;基于所述嘴部对象的时空特征进行音节分类特征提取,得到所述嘴部对象的音节分类特征。5.根据权利要求4所述的方法,其特征在于,所述分别对每一所述图像帧的嘴部关键点特征进行空间特征提取,得到所述嘴部对象在每一图像帧的空间特征,包括:对所述嘴部对象的多个所述嘴部关键点的帧间差异信息和帧内差异信息进行融合,得到所述嘴部对象在每一图像帧的帧间差异特征和帧内差异特征;对所述嘴部对象在多个所述图像帧的帧间差异特征和帧内差异特征进行融合,得到所述嘴部对象在每一图像帧的空间特征。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述图像帧序列中多个图像帧的所述嘴部关键点特征,生成音节分类特征,包括:利用经过训练的音节特征提取网络对所述图像帧序列中多个图像帧的嘴部关键点特征进行处理,得到音节分类特征;
所述在预设关键词库中确定与所述音节分类特征匹配的关键词,包括:利用经过训练的分类网络,在预设关键词库中确定与所述音节分类特征匹配的关键词。7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取包含嘴部对象的图像帧序列,包括:对获取到的包含嘴部对象的原始图像序列进行图像插帧,得到所述图像帧序列;或者,基于获取到的包含嘴部对象的原始图像序列中的嘴部关键点,对所述原始图像序列进行插帧,得到所述图像帧序列。8.一种生成唇语识别模型的方法,其特征在于,所述方法包括:获取包含嘴部对象的样本图像帧序列;其中,所述样本图像帧序列标注有关键词标签;对所述样本图像帧序列中的每一样本图像帧进行嘴部关键点特征提取,得到所述每一样本图像帧的嘴部关键点特征;利用待训练的模型,根据所述样本图像帧序列中多个样本图像帧的所述嘴部关键点特征,生成音节分类特征,并在预...
【专利技术属性】
技术研发人员:康硕,李潇婕,王飞,钱晨,
申请(专利权)人:上海商汤临港智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。