视频处理方法及装置、电子设备和存储介质制造方法及图纸

技术编号:32736522 阅读:20 留言:0更新日期:2022-03-20 08:42
本公开涉及一种视频处理方法及装置、电子设备和存储介质,所述方法包括:获取第一视频帧,以及第一视频帧和第二视频帧之间的第一运动向量;获取目标对象在第一视频帧中的轮廓关键点的第一位置信息,以及第一视频帧的第一掩膜图像;根据第一运动向量、第一位置信息和第一掩膜图像,获得第二运动向量;根据第二运动向量和第一位置信息,获得目标对象在第二视频帧中的轮廓关键点的第二位置信息。根据本公开的实施例的视频处理方法,可通过对第一视频帧本身进行目标对象的识别处理,可获得目标对象的准确的轮廓,并可利用运动向量来进行后续视频帧中的目标检测,可利用视频帧的时间冗余,提升目标检测速度。提升目标检测速度。提升目标检测速度。

【技术实现步骤摘要】
视频处理方法及装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及一种视频处理方法及装置、电子设备和存储介质。

技术介绍

[0002]对视频进行快速目标检测在视频处理与传输中有着重要应用。视频编码中可根据目标检测结果分配码率,解决存储成本。视频通信中可根据目标检测结果选择性传输,节约带宽成本,降低延迟。
[0003]当前的快速视频目标检测方法有两大分类,一类为单帧加速类,此方法需逐帧进行特征提取(feature extraction),并未利用视频帧的时间冗余(temporal redundancy),仍有较大的加速空间。
[0004]另一类为特征域变换加速类,此方法基于压缩视频码流(compressed bitstream)中的运动向量信息,检测视频帧的特征信息中的目标,由此利用视频帧的时间冗余,达到加速检测和/或分割任务的目的,但方法的变换属于特征域变换(feature wrapping),即,对经过卷积、下采样等处理后的特征信息进行变换等处理来检测目标,难以准确估计物体轮廓线(contour)。

技术实现思路

[0005]本公开提出了一种视频处理方法及装置、电子设备和存储介质。
[0006]根据本公开的一方面,提供了一种视频处理方法,包括:获取待处理视频流中的第一视频帧,以及所述第一视频帧和第二视频帧之间的第一运动向量,其中,所述第二视频帧为第一视频帧之后的任意视频帧;对所述第一视频帧中的目标对象进行检测处理,获取所述目标对象在第一视频帧中的轮廓关键点的第一位置信息,以及所述第一视频帧的第一掩膜图像,其中,所述第一掩膜图像为表示所述第一视频帧中目标对象的位置和轮廓的图像,所述轮廓关键点位于所述轮廓上;根据所述第一运动向量、所述第一位置信息和所述第一掩膜图像,获得第二运动向量,其中,所述第二运动向量为修正后的运动向量;根据所述第二运动向量和所述第一位置信息,获得所述目标对象在第二视频帧中的轮廓关键点的第二位置信息。
[0007]根据本公开的实施例的视频处理方法,可通过对第一视频帧本身进行目标对象的识别处理,可获得目标对象的准确的轮廓,并可利用运动向量来进行后续视频帧中的目标检测,可利用视频帧的时间冗余,提升目标检测速度,即,无需逐帧进行目标检测,而是可利用视频帧之间稀疏的运动向量信息来获取其他视频帧中目标对象的检测结果,提升检测效率。并且,通过修正后的运动向量来进行目标检测,可减小运动向量的累计误差,提升目标检测的准确性和鲁棒性。
[0008]在一种可能的实现方式中,根据所述第一运动向量、所述第一位置信息和所述第一掩膜图像,获得第二运动向量,包括:根据所述第一运动向量,获得分量特征图,所述分量
特征图由第一运动向量的分量确定;将所述分量特征图、所述第一位置信息和所述第一掩膜图像输入修正神经网络,获得运动向量修正量;根据所述运动向量修正量和所述第一运动向量,获得所述第二运动向量。
[0009]在一种可能的实现方式中,根据所述第一运动向量,获得分量特征图,包括:将所述第一运动向量进行分解,获得第一维度分量和第二维度分量;根据所述第一维度分量和所述第二维度分量,分别获得分量特征图。
[0010]通过这种方式,可获得修正后的第二运动向量,修正处理可减小累计误差,修正轮廓关键点的位置,保持轮廓的形状。通过第二运动向量对第一视频帧中的轮廓关键点进行位置变换,可提升位置信息的准确性。
[0011]在一种可能的实现方式中,所述方法还包括:对样本视频流的第一样本视频帧进行检测处理,获取目标对象的轮廓关键点的第一样本位置信息;获取所述第一样本视频帧的第一样本掩膜图像、所述第一样本视频帧和第二样本视频帧之间的样本运动向量,其中,所述第一样本掩膜图像为表示第一样本视频帧中目标对象的位置和轮廓的图像,所述轮廓关键点位于所述轮廓上,所述第二样本视频帧为所述第一样本视频帧之后的任意视频帧;根据所述样本运动向量、所述第一样本掩膜图像、所述第一样本位置信息和所述修正神经网络,获得修正运动向量;根据所述第一样本视频帧和所述第二样本视频帧,获得参考运动向量;根据所述修正运动向量和所述参考运动向量,获得所述修正神经网络的网络损失;根据所述网络损失,训练所述修正神经网络。
[0012]在一种可能的实现方式中,根据所述样本运动向量、所述第一样本掩膜图像、所述第一样本位置信息和所述修正神经网络,获得修正运动向量,包括:根据所述样本运动向量和预设的噪声信号,获得样本分量特征图;根据将所述样本分量特征图、所述第一样本掩膜图像和所述第一样本位置信息输入所述修正神经网络,获得样本修正量;根据所述样本修正量和所述样本运动向量,获得修正运动向量。
[0013]通过这种方式,可通过在训练过程中加入随机噪声来提升修正神经网络校正误差的能力,提升修正神经网络的精确度和鲁棒性。
[0014]在一种可能的实现方式中,所述方法还包括:根据所述目标对象在第二视频帧中的轮廓关键点的第二位置信息,获得所述第二视频帧的第二掩膜图像,所述第二掩膜图像为表示所述第二视频帧中目标对象的位置和轮廓的图像。
[0015]在一种可能的实现方式中,根据所述目标对象在第二视频帧中的轮廓关键点的第二位置信息,获得所述第二视频帧的第二掩膜图像,包括:根据所述第一视频帧中的轮廓关键点之间的相对关系,对所述第二视频帧中的轮廓关键点进行连接,获得所述目标对象在所述第二视频帧中的轮廓;根据所述目标对象在所述第二视频帧中的轮廓,获得所述第二掩膜图像。
[0016]根据本公开的一方面,提供了一种视频处理装置,包括:获取模块,用于获取待处理视频流中的第一视频帧,以及所述第一视频帧和第二视频帧之间的第一运动向量,其中,所述第二视频帧为第一视频帧之后的任意视频帧;检测模块,用于对所述第一视频帧中的目标对象进行检测处理,获取所述目标对象在第一视频帧中的轮廓关键点的第一位置信息,以及所述第一视频帧的第一掩膜图像,其中,所述第一掩膜图像为表示所述第一视频帧中目标对象的位置和轮廓的图像,所述轮廓关键点位于所述轮廓上;修正模块,用于根据所
述第一运动向量、所述第一位置信息和所述第一掩膜图像,获得第二运动向量,其中,所述第二运动向量为修正后的运动向量;位置获得模块,用于根据所述第二运动向量和所述第一位置信息,获得所述目标对象在第二视频帧中的轮廓关键点的第二位置信息。
[0017]在一种可能的实现方式中,所述修正模块进一步用于:根据所述第一运动向量,获得分量特征图,所述分量特征图由第一运动向量的分量确定;将所述分量特征图、所述第一位置信息和所述第一掩膜图像输入修正神经网络,获得运动向量修正量;根据所述运动向量修正量和所述第一运动向量,获得所述第二运动向量。
[0018]在一种可能的实现方式中,所述修正模块进一步用于:将所述第一运动向量进行分解,获得第一维度分量和第二维度分量;根据所述第一维度分量和所述第二维度分量,分别获得分量特征图。
[0019]在一种可能的实现方式中,所述装置还包括:训练模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取待处理视频流中的第一视频帧,以及所述第一视频帧和第二视频帧之间的第一运动向量,其中,所述第二视频帧为第一视频帧之后的任意视频帧;对所述第一视频帧中的目标对象进行检测处理,获取所述目标对象在第一视频帧中的轮廓关键点的第一位置信息,以及所述第一视频帧的第一掩膜图像,其中,所述第一掩膜图像为表示所述第一视频帧中目标对象的位置和轮廓的图像,所述轮廓关键点位于所述轮廓上;根据所述第一运动向量、所述第一位置信息和所述第一掩膜图像,获得第二运动向量,其中,所述第二运动向量为修正后的运动向量;根据所述第二运动向量和所述第一位置信息,获得所述目标对象在第二视频帧中的轮廓关键点的第二位置信息。2.根据权利要求1所述的方法,其特征在于,根据所述第一运动向量、所述第一位置信息和所述第一掩膜图像,获得第二运动向量,包括:根据所述第一运动向量,获得分量特征图,所述分量特征图由第一运动向量的分量确定;将所述分量特征图、所述第一位置信息和所述第一掩膜图像输入修正神经网络,获得运动向量修正量;根据所述运动向量修正量和所述第一运动向量,获得所述第二运动向量。3.根据权利要求2所述的方法,其特征在于,根据所述第一运动向量,获得分量特征图,包括:将所述第一运动向量进行分解,获得第一维度分量和第二维度分量;根据所述第一维度分量和所述第二维度分量,分别获得分量特征图。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:对样本视频流的第一样本视频帧进行检测处理,获取目标对象的轮廓关键点的第一样本位置信息;获取所述第一样本视频帧的第一样本掩膜图像、所述第一样本视频帧和第二样本视频帧之间的样本运动向量,其中,所述第一样本掩膜图像为表示第一样本视频帧中目标对象的位置和轮廓的图像,所述轮廓关键点位于所述轮廓上,所述第二样本视频帧为所述第一样本视频帧之后的任意视频帧;根据所述样本运动向量、所述第一样本掩膜图像、所述第一样本位置信息和所述修正神经网络,获得修正运动向量;根据所述第一样本视频帧和所述第二样本视频帧,获得参考运动向量;根据所述修正运动向量和所述参考运动向量,获得所述修正神经网络的网络损失;根据所述网络损失,训练所述修正神经网络。5.根据权利要求4所述的方法,其特征在于,根...

【专利技术属性】
技术研发人员:许通达高宸健王岩袁涛秦红伟
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1