当前位置: 首页 > 专利查询>南京大学专利>正文

一种面向实时视频分析的画面增强型解码方法技术

技术编号:36926360 阅读:9 留言:0更新日期:2023-03-22 18:49
本发明专利技术公开了一种面向实时视频分析的画面增强型解码方法,包括如下步骤:视频码流通过网络传输到服务器后由调度器将所有帧分成三类,每个类别执行三个管道中的一个。三个管道包括1.利用超分辨率模型将一组低分辨率锚点帧增强为高分辨率帧后输入推理模型;2.利用码流信息(如帧参考关系、运动向量和残差)将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型;3.利用码流信息运动向量将推理模型的结果复用到未推理帧上。调度器利用从关键帧提取的画面特征和从码流信息中提取的帧差异特征进行合理的帧分类;画面增强提升了视频分析的推理精度,而码流信息的使用避免了对整个视频进行逐帧画面增强和推理,降低了时延。延。延。

【技术实现步骤摘要】
一种面向实时视频分析的画面增强型解码方法


[0001]本专利技术涉及视频分析领域,具体而言涉及一种面向实时视频分析的画面增强型解码方法。

技术介绍

[0002]随着计算机视觉的进步,如今普及的摄像头所拍摄的视频都有机会进行自主分析。深度神经网络可以显著提高各种视觉任务的准确性,但对计算资源的要求很高。由于商业摄像头的计算资源不足,分布式视频分析管道(Video Analytics Pipeline,VAP)会将视频传输到功能强大的服务器上进行推理。
[0003]然而,即使是最先进的分布式VAP,也难以做到对视频的高度精确的分析。由于目前绝大多数的视频分析方法都依赖于高分辨率的视频,因此很难分析低质量的视频,比如在低分辨率下的目标检测。例如,Faster R

CNN是基于现代深度神经网络(Deep Neural Network,DNN)的推理方法,该方法的准确率对于360p的视频只能达到56%左右,对于540p的视频只能达到61%左右。然而,现有的监控系统不可避免地会收集到低质量的视频。其中一个原因是,现有的低质量的摄像头只能收集低分辨率帧。例如,纽约市的交通部门已经将752个交通摄像头收集的视频公开;然而,由于摄像头的默认配置,这些视频以极低的分辨率(240p)传输。另一个原因是,由于上游带宽的限制,目前的视频流协议会过度压缩或修剪视频。例如,AWStream为了节省带宽,会将视频的分辨率从540p降低到360p,帧率从1降低到0.83。AWStream最终节省了66%的带宽,却将精度从61%降低到54%。
[0004]为了解决这些挑战,一些VAP尝试在图像输入到推理模型之前利用图像增强模型来增强图像,如超分辨率(Super Resolution,SR)和生成对抗网络(Generative Adversarial Network,GAN)。这一想法的灵感来自于计算机视觉社区的观察:在高分辨率图像上运行与目标识别相关的任务,可以提高检测精度。然而,图像增强引入了额外的延迟,导致大约500ms的端到端延迟,这远远没有达到实时要求(小于30ms)。
[0005]虽然DNN感知的视频增强是一种很有前途的方法,但是仍有很大改进空间。首先,先前的图像增强机制在很大程度上与视频内容无关,平等地处理每个接收到的帧。但实际上并不需要增强所有帧。例如,只有包含车辆的帧对交通流量分析有价值;相反,增强只有空街道的帧毫无价值,反而会增加系统延时。因此,内容不可知的增强机制不可避免地是次优的。其次,尽管新的DNN框架被设计出用于准确识别重要帧,但计算量太大,无法实现低延迟。第三,解码所有的帧用于分析是计算密集和耗时的,视频编码包含大量未利用但方便的信息来捕获重要的帧,如运动向量(Motion Vector,MV)和残差。

技术实现思路

[0006]专利技术目的:针对上述现有技术存在的问题和不足,本专利技术的目的是提出一种面向实时视频分析的画面增强型解码方法,以同时实现高精度、有限的延迟和低资源目标。
[0007]技术方案:为实现上述专利技术目的,本专利技术提出了一种面向实时视频分析的画面增
强型解码方法,包括如下步骤:
[0008](1)视频码流通过网络传输到服务器后由调度器将所有帧分成三类,每个类别执行三个管道中的一个;
[0009](2)第一管道利用SR模型将一组低分辨率(Low Resolution,LR)锚点帧增强为高分辨率(High Resolution,HR)帧后输入推理模型;第二管道利用码流信息(如帧参考关系、运动向量和残差)将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型;
[0010](3)第三管道利用码流信息运动向量将推理模型的结果(如目标检测中的边界框(Bounding Box,Bbox))复用到未推理帧上。
[0011]进一步地,所述步骤(1)中,调度器必须提供自适应的阈值设置,来决定将帧分类到哪个管道;为了自适应地设置阈值,将上述问题表述为一个马尔科夫决策过程,其中调度器在系统中作出阈值设置决策;MDP是一个离散时间的随机过程,定义为一个四元组<S,A,R,P>;其中,S是状态集合,A是动作集合,R是奖励集合,P是动作A发生时,从状态S转换到状态S

的概率;当处理帧时,调度器的目标是将这些帧聚类到三个管道(即A)来最大化预期的长期奖励状态由两个组成部分组成:关键帧的内容特征以及当前帧与最后一个推理帧之间的差异;动作是为每个视频段设置两个阈值tr1和tr2:第一个阈值tr1用于选择锚点帧以进行SR,并将锚点帧的质量扩散到其它帧中;第二个阈值tr2用于选择由推理DNN进行分析的推理帧;然后,其余的帧通过帧参考关系来重用推理结果。奖励包含两个方面:视频段的平均准确性和获得视频段的推理结果所需的延迟。
[0012]进一步地,所述步骤(2)中,首先使用SR模型增强锚点帧并缓存输出;然后对于目标块,系统根据参考索引在缓存的锚点帧中选择参考块,并以与SR相同的放大系数来放大MV;利用MV,系统将缓存帧中的参考块的SR增益扩散到目标块;最后,系统通过轻量级插值(如双线性或双三次)放大残差,将所述残差累加到扩散的块来输出HR块,并粘贴到非锚点帧上。
[0013]进一步地,所述步骤(3)中,使用推理模型推断推理帧并缓存结果,计算驻留在每个Bbox中的所有MV的平均值,并使用所述平均值将每个Bbox移到当前位置,以此来推断非推理帧;首先,从静态背景和异常值中过滤有噪声的MV;其次,为了应对由于目标的移动而引起的Bbox大小的变化,将MV计算区域扩展到每个方向的一个宏块(16个像素)。
[0014]有益效果:本专利技术通过一种面向实时视频分析的画面增强型解码方法,同时实现高精度、有限的延迟和低资源目标:第一,将一组LR锚点帧增强为HR帧,从而实现了高精度目标;第二,扩散和重用分摊了整个视频的SR和推理的计算开销,从而实现了低延迟目标;第三,通过利用关键帧的内容特征和编解码器信息的变化,从而降低了延迟和计算成本。
附图说明
[0015]图1为SR增益的扩散过程图;
[0016]图2为帧和残差与差异值和Bbox变化之间的相关性图;
[0017]图3为帧和残差的特征提取时间开销图;
[0018]图4为本专利技术的架构图;
[0019]图5为MV和Bbox之间的关系图;
具体实施方式
[0020]下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0021]本专利技术提出一种面向实时视频分析的画面增强型解码方法,具体的实施方式分别说明如下:
[0022]将所有帧分为三类并保证准确性和延迟之间的权衡对应技术方案步骤(1)。具体实施方式为:使用调度器。精度和延迟权衡的关键是:在精细空间粒度中,最优地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向实时视频分析的画面增强型解码方法,包括如下步骤:(1)视频码流通过网络传输到服务器后由调度器将所有帧分成三类,每个类别执行三个管道中的一个;(2)第一管道利用超分辨率模型将一组低分辨率锚点帧增强为高分辨率帧后输入推理模型;第二管道利用码流信息将锚点帧的增益扩散到非锚点帧上并将所述非锚点帧输入推理模型;(3)第三管道利用码流信息运动向量将推理模型的结果复用到未推理帧上。2.根据权利要求1所述一种面向实时视频分析的画面增强型解码方法,其特征在于:所述步骤(1)中,调度器提供自适应的阈值设置,来决定将帧分类到哪个管道;为了自适应地设置阈值,将上述问题表述为一个马尔科夫决策过程,其中调度器在系统中作出阈值设置决策;马尔科夫决策过程是一个离散时间的随机过程,定义为一个四元组<S,A,R,P>;其中S是状态集合,A是动作集合,R是奖励集合,P是动作A发生时,从状态S转换到状态S

的概率;当处理帧时,调度器的目标是将这些帧聚类到三个管道来最大化预期的长期奖励状态由两个组成部分组成:关键帧的内容特征以及当前帧与最后一个推理帧之间的差异;动作是为每个视频段设置两个阈值tr1和tr2:...

【专利技术属性】
技术研发人员:戴海鹏王蔚峻厉泉宏米良
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1