视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29497791 阅读:45 留言:0更新日期:2021-07-30 19:11
本公开关于一种视频处理方法、装置、电子设备及存储介质,所述视频处理方法包括:获取视频以及与所述视频中的各个视频帧对应的部分透明度信息;基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征;将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征;基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息;根据预测出的未知透明度信息对所述视频进行处理。

【技术实现步骤摘要】
视频处理方法、装置、电子设备及存储介质
本公开涉及图像处理领域,尤其涉及一种视频处理方法和装置、电子设备及存储介质。
技术介绍
抠图是图像处理领域里的重要技术之一。传统的抠图技术利用图像的色彩或结构等底层特征来分离前景,但是当应用于复杂场景时,抠图效果被底层特征的有限表达能力所限制而不能精确的分离出前景。随着深度学习的发展,基于深度学习的图像抠图技术成为主流的图像抠图技术。然而,不同于日益成熟的深度图像抠图技术,深度视频抠图技术由于缺乏大规模的深度学习视频抠图数据集而没有得到有效探索。通常,深度视频抠图的解决方案之一是将深度图像抠图技术逐帧应用于视频数据,从而实现视频抠图。然而,将图像抠图算法独立应用于视频帧,预测得到的Alpha往往相对独立、缺少连续性和一致性,即,Alpha预测准确性不高,因此,当利用所有Alpha预测进行视频抠图时,会观察到抠图对象明显的抖动,难以满足用户需求。
技术实现思路
本公开提供一种视频处理方法和装置、电子设备及存储介质,以至少解决相关技术中的Alpha预测不准确的问题。根据本公开实施例的第一方面,提供了一种视频处理方法,所述视频处理方法包括:获取视频以及与所述视频中的各个视频帧对应的部分透明度信息;基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征;将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征;基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息;根据预测出的未知透明度信息对所述视频进行处理。可选地,所述将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,包括:提取相邻视频帧之间的运动信息,并根据运动信息使相邻帧的同一尺度的空间特征对齐;将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。可选地,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,包括:通过对每个尺度的对齐的空间特征直接进行通道合并,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征;或者通过对每个尺度的对齐的空间特征进行通道合并并且利用注意力机制对经过通道合并后的特征进行融合,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。可选地,所述利用注意力机制对经过通道合并后的特征进行融合,包括:利用通道注意力机制对特征通道进行融合,并且利用空间注意力机制对同一通道内的像素进行融合。可选地,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,还包括:对多个不同尺度的融合特征进行进一步特征提取,以获得新的融合特征;其中,所述基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息,包括:基于新的融合特征,预测各个视频帧的未知透明度信息。可选地,基于所述视频以及所述部分透明度信息利用深度神经网络模型预测各个视频帧的除所述部分透明度信息之外的未知透明度信息,其中,所述深度神经网络模型是编码器-解码器结构模型,所述编码器-解码器结构模型的编码器与解码器之间存在跳层连接,并且解码器包括特征融合模块和预测分支,其中,利用编码器提取各个视频帧的多个尺度的空间特征,利用特征融合模块将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,并且利用预测分支基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息。可选地,所述跳层连接指示编码器产生的不同尺度的空间特征被分别输入到解码器的用于融合对应尺度的特征的特征融合模块。可选地,所述基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征,包括:将各个视频帧和与各个视频帧对应的透明度信息图连接,以构成连接图像;提取与各个视频帧对应的连接图像的多个尺度的空间特征,作为各个视频帧的多个尺度的空间特征。可选地,所述根据预测出的未知透明度信息对所述视频进行处理,包括:根据预测出的各个视频帧的未知透明度信息提取所述视频中的目标对象。根据本公开实施例的第二方面,提供了一种训练深度神经网络模型的方法,包括:获取训练视频以及与所述训练视频中的各个视频帧对应的全部透明度信息;基于所述训练视频以及所述全部透明度信息中的部分透明度信息,利用深度神经网络模型执行以下操作来预测除所述部分透明度信息之外的未知透明度信息:基于所述训练视频的各个视频帧和与各个视频帧对应的部分透明度信息提取各个视频帧的多个尺度的空间特征,将所述训练视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,并且基于多个不同尺度的融合特征预测各个视频帧的全部透明度信息中除所述部分透明度信息之外的未知透明度信息;通过将预测出的未知透明度信息与所述全部透明度信息中除所述部分透明度信息之外的透明度信息进行比较来调整所述深度神经网络模型的参数。可选地,所述将所述训练视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,包括:提取相邻视频帧之间的运动信息,并根据运动信息使相邻帧的同一尺度的空间特征对齐;将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。可选地,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,包括:通过对每个尺度的对齐的空间特征直接进行通道合并,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征;或者通过对每个尺度的对齐的空间特征进行通道合并并且利用注意力机制对经过通道合并后的特征进行融合,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。可选地,所述利用注意力机制对经过通道合并后的特征进行融合,包括:利用通道注意力机制对特征通道进行融合,并且利用空间注意力机制对同一通道内的像素进行融合。可选地,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,还包括:对多个不同尺度的融合特征进行进一步特征提取,以获得新的融合特征;其中,基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息,包括:基于新的融合特征,预测各个视频帧的未知透明度信息。可选地,所述深度神经网络模型是编码器-解码器结构模型,所述编码器-解码器结构模型的编码器与解码器之间存在跳层连接,并且解码器包括特征融合模块和预测分支,其中,利用编码器提取各个视频帧的多个尺度的空间特征,利用特征融合模块将所述训练视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,并且利用预测分支基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息。可选地,所述跳层连接指示编码器产生的不同尺度的空间特征被分别输入到解码器的用于融合对应尺度的特征的特征融合模块。可选地,基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征,包括:将各个视频帧和与各个视频帧对应的透明度信息图连接,以构成连接图像;提取与各个视频帧对应的连接图像的多个尺度的空间特征,作为各个视频帧的多个尺度的空间特征。根据本公开实施例的第三方面,提供了一种视频处理装置,包括:数据获取单元,被配置为获取视频本文档来自技高网...

【技术保护点】
1.一种视频处理方法,其特征在于,包括:/n获取视频以及与所述视频中的各个视频帧对应的部分透明度信息;/n基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征;/n将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征;/n基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息;/n根据预测出的未知透明度信息对所述视频进行处理。/n

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:
获取视频以及与所述视频中的各个视频帧对应的部分透明度信息;
基于各个视频帧和所述部分透明度信息提取各个视频帧的多个尺度的空间特征;
将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征;
基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息;
根据预测出的未知透明度信息对所述视频进行处理。


2.如权利要求1所述的视频处理方法,其特征在于,所述将所述视频的相邻视频帧的同一尺度的空间特征融合以产生多个不同尺度的融合特征,包括:
提取相邻视频帧之间的运动信息,并根据运动信息使相邻帧的同一尺度的空间特征对齐;
将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。


3.如权利要求2所述的视频处理方法,其特征在于,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,包括:
通过对每个尺度的对齐的空间特征直接进行通道合并,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征;或者
通过对每个尺度的对齐的空间特征进行通道合并并且利用注意力机制对经过通道合并后的特征进行融合,来将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征。


4.如权利要求3所述的视频处理方法,其中,所述利用注意力机制对经过通道合并后的特征进行融合,包括:
利用通道注意力机制对特征通道进行融合,并且利用空间注意力机制对同一通道内的像素进行融合。


5.如权利要求4所述的视频处理方法,其特征在于,所述将同一尺度的对齐后的空间特征融合以产生多个不同尺度的融合特征,还包括:
对多个不同尺度的融合特征进行进一步特征提取,以获得新的融合特征;
其中,所述基于多个不同尺度的融合特征预测各个视频帧的未知透明度信息,包括:基于新的融合特征,预测各个视频帧的未知透明度信息。


6.一种训练深度神经网络模型的方法,包括:
获取训练视频以及与所述训练视频中的各个视频帧对应的全部透明度信息;
基于所述训练视频以及所述全部透明度信息中的部分透明度信息,利用深度神经网络模型执行以下操作来预测除所述部分透明度信息之外的未知透明度信息:基于所述训练视频的各个视频帧和...

【专利技术属性】
技术研发人员:孙亚楠戴宇荣
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1