System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及视频编码,尤其涉及一种可学习视频编码方法、系统、设备及存储介质。
技术介绍
1、视频作为一种多媒体数据形式,在广播电视、手机直播、道路监控、智慧城市等领域被广泛应用。对于一个分辨率为1080p、每秒30帧的视频,其数据量可以达到每秒180mbytes(兆字节)。庞大的数据量,造成了巨大的视频的传输与存储代价。因此,在传输与存储前,通常需要压缩视频的大小,将视频编码为更紧凑的码流,以减小其传输与存储代价。
2、传统视频编码标准,如h.264/avc、h.265/hevc、h.266/vvc,大都采用基于块的混合编码框架,包含基于块的运动预测、运动补偿、变换、量化、熵编码等模块。尽管传统视频编码标准已取得了巨大的成功,但其编码性能也陷入瓶颈,想要取得更大的编码性能也愈加困难。近年来,基于神经网络的可学习视频编码方法开启了一个新的方向,为取得更大的编码性能带来了希望。可学习的视频编码方法利用神经网络实现了传统混合编码框架中的各个编码模块,利用率失真(rdo)函数,联合训练所有编码模块。
3、已有的可学习条件编码方法主要可以分为两类,包括基于残差编码的方法和基于条件编码的方法。
4、这两类方法的共同点在于都需要运动预测和运动补偿。运动预测通常将当前待编码帧和参考帧送入运动估计网络,例如光流网络,得到当前帧和参考帧之间运动的矢量,例如光流(包含了当前帧的每个像素的运动矢量)。预测得到的运动矢量需要经过编码解码,在可学习的视频编码方法中,常用自编码器实现运动矢量的编码和解码,运动编码器将预测
5、这两类方法的主要区别在于:经运动预测、运动补偿后,残差编码方法(lu,g.,ouyang,w.,xu,d.,zhang,x.,cai,c.,&gao,z.(2019).dvc:an end-to-end deep videocompression framework.in proceedings of the ieee/cvf conference on computervision and pattern recognition(pp.11006-11015).)将当前待编码视频帧和预测帧相减得到残差,以减少时域冗余,然后用另一个自编码器的编码网络编码残差,得到残差的隐变量,隐变量再经熵编码得到码流。在解码器中,熵解码器将码流重新解码为残差的隐变量,自编码器的解码网络将隐变量解码为残差后再加上预测帧,得到重建帧。除了像素域的残差编码,hu等人(hu,z.,lu,g.,&xu,d.(2021).fvc:a new framework towards deepvideo compression in feature space.in proceedings of the ieee/cvf conferenceon computer vision and pattern recognition(pp.1502-1511).)还提出了特征域的残差编码,先对原始待编码视频帧和参考帧提取深度特征,然后在特征域进行运动预测和运动补偿,然后编码当前帧的深度特征和预测帧的深度特征的残差。
6、对于条件的编码方法,li(li,j.,li,b.,&lu,y.(2021).deep contextual videocompression[dcvc].advances in neural information processing systems,34,18114-18125.)等人提出了dcvc可学习视频编码方法,在该方法中,得到预测帧后,将预测帧送入神经网络提取深度特征,作为上下文特征,和待编码帧一起送入(常见的方式为在通道维度级联concatenate)自编码器的编码网络中,不显式地计算残差,而是让编码网络自动地学习减少时域冗余,编码网络将输入帧编码为隐变量,再利用熵编码器,将隐变量无损地编码为码流。在解码端,熵解码器将码流无损地解码为隐变量,自编码器的解码网络将隐变量解码为重建帧。在解码网络获得重建帧前,再把上下文特征送入(常见的方式为在通道维度级联concatenate)解码网络中。sheng等人(sheng,x.,li,j.,li,b.,li,l.,liu,d.,&lu,y.(2022).temporal context mining for learned video compression.ieeetransactions on multimedia.)在dcvc的基础上还提出dcvc-tcm可学习视频编码方法,该方法提出了特征域的运动补偿,将获得上一帧的重建帧之前的解码网络的中间特征作为编码下一帧的参考特征,利用重建光流对参考特征进行特征域的运动补偿,得到预测特征,然后从预测特征提取多尺度的上下文特征。在编码网络编码和解码网络解码的过程中,将多尺度的上下文特征以条件编码的方式送入编码网络和解码网络中,以此利用时域相关性,减小时域冗余。li等人(li,j.,li,b.,&lu,y.(2022,october).hybrid spatial-temporalentropy modelling for neural video compression.in proceedings of the 30th acminternational conference on multimedia(pp.1503-1511),提出了dcvc-hem可学习视频编码方法,该方法沿用了dcvc-tcm的特征域运动补偿和多尺度上下文特征的技术,并在此基础上进一步加入了混合时空熵模型。li等人(li,j.,li,b.,&lu,y.(2023).neural videocompression with diverse contexts.in proceedings of the ieee/cvf conferenceon computer vision and pattern recognition(pp.22616-22626).)在dcvc-hem的基础上进一步提出了dcvc-dc可学习视频编码方法,该方法提出了基于四叉树划分的混合时空域熵模型,大幅提升了可学习视频编码方法的编码性能,让其编码性能超越了传统视频编码标准h.266/vvc的参考软件。
7、上述方案中,dcvc-dc可学习视频编码方法与本专利技术最为相关,但是,它的缺陷在于:在视频帧中,不同的运动物体往往具有不同的运动方式(例如非均匀运动、旋转、放缩),导致视频帧的不同区域的运动往往是不一致的,例如,一个局部区域可能同时包含着前景和背景物体,它们的运动可能是不同的,区域内物体的运动不一致特性给运动估计带来了巨大挑战。但是,dcvc-dc可学习视频编码方法,没有显式区分具有不一致运动的物体,对于一些具有不一致运动物体的区域,反倒会减小不同物体的运动的不一致性,无法准确地估计运动,进而制约了编本文档来自技高网...
【技术保护点】
1.一种可学习视频编码方法,其特征在于,包括:
2.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤1中:
3.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤2中:
4.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤3中:
5.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤4中:
6.根据权利要求1~5任一项所述的一种可学习视频编码方法,其特征在于,步骤1通过基于结构与细节分解的运动估计模块实现,步骤2通过基于结构与细节分解的运动矢量编码网络实现,步骤3通过基于结构与细节分解的时域上下文挖掘模块实现,步骤4通过上下文编码网络实现,步骤5通过帧生成器实现;它们共同形成了可学习视频编码模型,且该可学习视频编码模型预先进行训练。
7.根据权利要求6所述的一种可学习视频编码方法,其特征在于,可学习视频编码模型训练方式如下:
8.一种可学习视频编码系统,其特征在于,包括可学习视频编码模型,通过可学习视频编码模型进行视频编码,所述可学习视频
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
...【技术特征摘要】
1.一种可学习视频编码方法,其特征在于,包括:
2.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤1中:
3.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤2中:
4.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤3中:
5.根据权利要求1所述的一种可学习视频编码方法,其特征在于,所述步骤4中:
6.根据权利要求1~5任一项所述的一种可学习视频编码方法,其特征在于,步骤1通过基于结构与细节分解的运动估计模块实现,步骤2通过基于结构与细节分解的运动矢量编码网络实现,步骤3通过基于结构与细节分解的时域上下...
【专利技术属性】
技术研发人员:李礼,盛锡华,刘东,李厚强,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。