视频图像处理方法、装置、终端设备和可读存储介质制造方法及图纸

技术编号:36734336 阅读:27 留言:0更新日期:2023-03-04 10:04
本申请实施例提供一种视频图像处理方法、装置、终端设备和可读存储介质,该视频图像处理方法包括:对输入的视频图像进行特征提取,得到每帧图像的特征图;对每帧图像的所述特征图进行语义原型提取,得到每帧图像的语义原型;对各帧图像的所述特征图和所述语义原型进行上下文信息聚合后分割,得到所述视频图像的语义分割预测结果。该方法可以适用于实时的视频分割任务,具有较低的计算复杂度和较低的最大延迟等。大延迟等。大延迟等。

【技术实现步骤摘要】
视频图像处理方法、装置、终端设备和可读存储介质


[0001]本申请涉及视频处理
,尤其涉及一种视频图像处理方法、装置、终端设备和可读存储介质。

技术介绍

[0002]为降低视频处理过程中的冗余计算,一些现有的视频语义分割方法采用了关键帧选取策略,这些方法在关键帧上用大网络提取高精度语义信息,再用光流或RNN网络等方法将关键帧语义信息传递至非关键帧,通过稀疏地选取关键帧,这些方法可以达到更快的平均速度,但它们的最大延迟受限于关键帧的推理速度,因此不适用于实际场景。

技术实现思路

[0003]本申请实施例提供一种视频图像处理方法、装置、终端设备和可读存储介质,该方法大大降低了计算复杂度,使得算法具有较高的运行速度和较低的最大延迟,可以适用于实时的视频分割任务等。
[0004]本申请的实施例提供一种视频图像处理方法,所述方法包括:
[0005]对输入的视频图像进行特征提取,得到每帧图像的特征图;
[0006]对每帧图像的所述特征图进行语义原型提取,得到每帧图像的语义原型;
[0007]对各帧图像的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频图像处理方法,其特征在于,所述方法包括:对输入的视频图像进行特征提取,得到每帧图像的特征图;对每帧图像的所述特征图进行语义原型提取,得到每帧图像的语义原型;对各帧图像的所述特征图和所述语义原型进行不同维度上下文信息聚合后分割,得到所述视频图像的语义分割预测结果。2.根据权利要求1所述的视频图像处理方法,其特征在于,所述对每帧图像的所述特征图进行语义原型提取,包括:对每帧图像的所述特征图进行卷积处理,得到每帧图像的投影矩阵;将每帧图像的所述特征图和所述投影矩阵进行矩阵相乘,得到每帧图像的语义原型。3.根据权利要求1或2所述的视频图像处理方法,其特征在于,所述对各帧图像的所述特征图和所述语义原型进行不同维度上下文信息聚合后分割,包括:对当前帧的所述特征图和当前帧的所述语义原型进行第一非局部操作,得到第一上下文聚合信息;对当前帧的所述特征图和邻近帧的所述语义原型进行第二非局部操作,得到第二上下文聚合信息;基于所述第一上下文聚合信息和所述第二上下文聚合信息进行语义分割,得到所述视频图像的语义分割预测结果。4.根据权利要求3所述的视频图像处理方法,其特征在于,所述邻近帧的帧数量为1~4帧;当所述邻近帧的帧数量大于1时,所述对当前帧的所述特征图和邻近帧的所述语义原型进行第二非局部操作,包括:将选取的各邻近帧的所述语义原型进行拼接操作后,再与当前帧的所述特征图进行所述第二非局部操作。5.根据权利要求1所述的视频图像处理方法,其特征在于,所述对输入的视频图像进行特征提取,之前还包括:对所述输入的视频图像进行基于双线性插值的图像缩放操作;以及,所述得到所述视频图像的语义分割预测结果,之后还包括:对所述语义分割预测结果进行基于双线性插值的图像恢复操作。6.根据权利要求3所述的视频图像处理方法,其特征在于,所述方法利用已训练的视频语义分割模型进行视频图像处理,所述视频语义分割模型包括语义原型生成网络,所述语义原型生成网络用于进行所述语义原型提取操作;所述语义原型生成网络包括多样性损失函数,所述多样性损失函数为:当所述语义原型的多样性得分小于得分阈值时,函数损失值为所述得分阈值与所述多样性得分的差值;当所述多样性得分大于等于所述得分阈值时,所述函数损失值为零。7.根据权利要求6所述的视频图像处理方法,其特征在于,所述视频语义分割模型包括上下文聚合网络,所述上下文聚合网络用于进行所述不同维度上下文信息聚合后分割操作;所述上下文聚合网络包括第一上下文聚合子网络和第二上下文聚合子网络,其中,所述第一上下文聚合子网络用于进行所述第一非局部操作;所述第...

【专利技术属性】
技术研发人员:张恒梁致远
申请(专利权)人:深圳市万普拉斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1