【技术实现步骤摘要】
一种视频图像处理方法、装置、电子设备及存储介质
[0001]本公开涉及互联网
,尤其涉及一种视频图像处理方法、装置、电子设备及存储介质。
技术介绍
[0002]视频目标分割(Video Object Segmentation,VOS)是视频场景理解和视频编辑的基础能力。该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。VOS技术是指给定某视频序列初始帧中的目标物体掩膜mask,在后续帧中,可以预测出该目标物体的像素级别的分割掩膜mask结果。随着深度学习的发展,深度神经网络被应用于VOS中,从深度网络提取的高层语义特征能够从复杂场景中更准确辨别目标物体和背景,从而极大地提升了目标分割的效果。
[0003]然而,深度神经网络虽然带来了更精确的目标分割方法,但是深度神经网络复杂的结构通常使得加载网络的设备需要更多的内存开销,给设备造成加大的负担。
技术实现思路
[0004]本公开提供一种视频图像处理方法、装置、电子设备及存储介质,本公开的技术方案如下:
[0005]根据本公 ...
【技术保护点】
【技术特征摘要】
1.一种视频图像处理方法,其特征在于,包括:获取视频的第一图像帧的掩膜和第二图像帧,所述第二图像帧在所述视频中的位置位于所述第一图像帧在所述视频中的位置之后;获取所述第一图像帧的第一多尺度特征;所述第一图像帧的第一多尺度特征为预先处理得到;基于所述第一图像帧的第一多尺度特征和掩膜,生成第一查询信息和第一掩膜信息;基于所述第二图像帧,生成第二查询信息和第二掩膜信息;根据所述第一查询信息、所述第二查询信息、所述第一掩膜信息和第二掩膜信息确定所述第二图像帧的掩膜。2.根据权利要求1所述的视频图像处理方法,其特征在于,所述第一图像帧的第一多尺度特征为查询编码器预先处理得到,所述查询编码器的主网络包括顺序连接的多个模块;所述获取所述第一图像帧的第一多尺度特征之前,还包括:基于所述多个模块对所述第一图像帧进行特征信息提取,得到所述多个模块中的每个模块对应的第一特征信息;基于所述每个模块对应的第一特征信息确定所述第一图像帧的第一多尺度特征;将所述第一图像帧的第一多尺度特征存放在记忆区域。3.根据权利要求2所述的视频图像处理方法,其特征在于,所述基于所述第一图像帧的第一多尺度特征和掩膜,生成第一查询信息和第一掩膜信息,包括:将记忆编码器的主网络包括的顺序连接的多个卷积层中,顺序第一的卷积层作为当前卷积层;将所述第一图像帧的掩膜当作当前输入信息;所述多个卷积层的数量和所述查询编码器的主网络包含的多个模块的数量相同,且一一对应;将所述当前输入信息输入所述当前卷积层,得到当前待融合特征信息;对所述当前待融合特征信息和所述当前卷积层对应的模块输出的第一特征信息进行加和操作,得到融合特征信息;利用所述当前卷积层的下一卷积层更新所述当前卷积层,并利用所述融合特征信息更新所述当前输入信息;重复执行:将所述当前输入信息输入所述当前卷积层,得到当前待融合特征信息;对所述当前待融合特征信息和所述当前卷积层对应的模块输出的第一特征信息进行加和操作,得到融合特征信息;直至得到所述多个卷积层中最后一个卷积层对应的融合特征信息;基于所述最后一个卷积层对应的融合特征信息,生成所述第一查询信息和所述第一掩膜信息。4.根据权利要求2所述的视频图像处理方法,其特征在于,所述查询编码器还包括位于所述查询编码器的主网络之后的查询卷积层和掩膜卷积层;所述查询卷积层和所述掩膜卷积层并列连接;所述基于所述第二图像帧,生成第二查询信息和第二掩膜信息,包括:基于所述多个模块对所述第二图像帧进行特征信息提取,得到所述多个模块中的每个模块对应的第二特征信息;基于所述查询卷积层对所述多个模块中的最后一个模块对应的第二特征信息进行信
息提取,得到所述第二图像帧的第二查询信息;基于所述掩膜卷积层对所述多个模块中的最后一个模块对应的第二特征信息进行信息提取,得到所述第二...
【专利技术属性】
技术研发人员:王伟农,戴宇荣,陶鑫,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。