可学习通用视频编码方法、系统、设备及存储介质技术方案

技术编号:38203357 阅读:9 留言:0更新日期:2023-07-21 16:47
本发明专利技术公开了一种可学习通用视频编码方法、系统、设备及存储介质,它们是一一对应的方案,方案中:运动编码时使用上一帧的重建特征作为参考特征,直接进行运动预测,无需获得像素域的参考视频,也即无需额外的运动估计模块,而是直接利用当前视频帧和参考特征进行进行联合运动预测和编码;并且,解码出的视频帧的重建特征可以直接应用于人类视觉任务和机器视觉任务;此外,还可以根据指定任务的类型使用相关的任务网络来进行后续任务处理,无需改变基于特征的视频编码部分。总体而言,本发明专利技术实现了高效的视频编码,可以同时取得高人类视觉任务性能和高机器视觉任务性能,不仅节省了编码时间,还节省了面向人类和机器视觉任务时的解码时间。时的解码时间。时的解码时间。

【技术实现步骤摘要】
可学习通用视频编码方法、系统、设备及存储介质


[0001]本专利技术涉及视频编码
,尤其涉及一种可学习通用视频编码方法、系统、设备及存储介质。

技术介绍

[0002]视频作为一种多媒体数据形式,在广播电视、网络直播、安防监控、自动驾驶等传统与新兴领域被广泛应用。视频的数据量庞大,对于一个分辨率为1080p(1080逐行扫描)、每秒30帧的视频,其数据量可以达到每秒180 Mbytes(兆字节),传输与存储代价巨大。因此,在传输与存储前,常需要压缩视频的大小,将视频编码为更紧凑的码流,以减小其传输与存储代价。
[0003]传统视频编码标准,如H.264/AVC(Advanced Video Coding,先进视频编码)、H.265/HEVC(High Efficiency Video Coding,高效视频编码)、H.266/VVC(Versatile Video Coding,通用视频编码),大都采用基于块的混合编码框架,包含基于块的运动预测、运动补偿、变换、量化、熵编码等模块。尽管传统视频编码标准已取得了巨大的成功,但其编码性能也陷入瓶颈,想要取得更大的编码性能也愈加困难。近年来,基于神经网络的可学习视频编码方法开启了一个新的方向,为取得更大的编码性能带来了希望。可学习的视频编码方法利用神经网络实现了传统混合编码框架中的各个编码模块,利用RDO(Rate Distortion Optimization,率失真)函数,联合训练所有编码模块。
[0004]已有的可学习视频编码方法主要可以分为两类,包括基于残差编码的方法和基于条件编码的方法。
[0005]对于面向人类视觉任务的视频编码而言,无论是传统视频编码方法还是现有的可学习视频编码方法,在解码端都是获得像素域的解码视频供人类观看。如何用更少的传输与存储代价,获得更高质量的重建视频,让人类获得更好的视觉体验,是视频编码最基本的目的。因此,获得高质量的重建视频是视频编码面向的最基本的人类视觉任务。由于相机传感器或环境的影响,编码的视频往往包含噪声,解码的视频也会包含噪声,因此,在解码端需要进行去噪处理,以提高人类视觉体验。由于拍摄设备的限制或者带宽的限制,编码的视频可能分辨率较低,解码的视频分辨率也较低,因此,在解码端需要进行超分辨率处理,以提高人类视觉体验。如何将视频编码为更紧凑的形式,以减小其传输与存储代价,并且让解码视频更有利于人类观看,能提高人类视觉体验,就是面向人类视觉任务的视频编码需要解决的核心问题。举例来说,视频重建、视频去噪、视频超分辨率等均为人类视觉任务。
[0006]对于面向机器视觉任务的视频编码而言,随着智慧城市、智慧交通、智慧安防等人工智能应用的普及,解码器不再只面向人类,还需要面向机器分析。例如高速公路上的摄像头需要拍摄司机的行为视频,视频被编码后传输至云端,接收到的码流需要由计算机进行分析,识别司机是否有危险动作,如打电话等。再例如城市摄像头监控,摄像头采集某个场景的视频,视频被编码后传输至云端,接收到的码流需要被计算机分析,检测场景中是否有目标物体出现,如行人、车辆。如何将视频编码为更紧凑的形式,以减小其传输与存储代价,
并且让接收到的码流更有利于机器分析,能让机器分析取得更高的准确率,就是面向机器视觉任务的视频编码需要解决的核心问题。举例来说,视频动作识别、视频目标检测等均为机器视觉任务。
[0007]现有的面向人类和机器视觉任务的视频编码方法可以分为三类。
[0008]第一类关注于特征压缩。Duan等人(Duan, L., Liu, J., Yang, W., Huang, T., & Gao, W. (2020). Video coding for machines: A paradigm of collaborative compression and intelligent analytics. IEEE Transactions on Image Processing, 29, 8680

8695.)提出压缩神经网络的深度特征。具体的,视频被送入视觉任务网络的前端部分得到深度特征,深度特征被编码为码流,然后解码为重建特征,重建特征被用于视觉任务网络的服务端部分。这类方法可以把视觉任务网络的部分计算复杂度从服务端转移至前端,减少服务端的计算复杂度。但是,这类方法的编码器无法做到与后续视觉任务无关,对于不同的视觉任务,需要压缩不同的深度特征,很难让压缩的深度特征适用于不同的任务。另外,当面向视频重建任务时,该类方法需要传输额外的视频码流。尽管可以使用生成模型从解码的深度特征生成重建视频,但生成的视频质量差,无法满足人类高质量视觉体验。
[0009]第二类方法使用可伸缩码流实现面向人类和机器视觉任务的视频编码。Jin等人(Jin, X., Feng, R., Sun, S., Feng, R., He, T., & Chen, Z. (2022). Semantically Video Coding: Instill Static

Dynamic Clues into Structured Bitstream for AI Tasks. arXiv preprint arXiv:2201.10162.)提出将视频的高级特征(视觉任务网络的输出,如被分类物体的类别号、被检测物体的位置边界框)和低级特征(如物体的运动信息、内容信息)分别压缩为码流,然后拼接在一起形成可伸缩码流。根据用户需求的不同,发送不同长度的码流。例如解码端只需要做动作视频任务,编码端(发送端)只需要将被识别动作的种类特征发送到解码端(接收端)。这类方法的编码器依然无法独立于视觉任务,对于不同的视觉任务,编码器需要做出改变。
[0010]第三类方法是使用传统视频编码方法如H.264/AVC、H.265/HEVC、H.266/VVC,将视频编码为码流,然后解码为像素域的重建视频,然后再进行相应的人类或机器视觉任务。MPEG标准组织正在研发的VCM标准的锚点模型(Zhang, Y., Rafie, M., & Liu, S. (2021). Use cases and requirements for video coding for machines. ISO/IEC JTC, 1.)就是采用这种方法。这类方法可以获得高质量的重建视频,但面向人类或机器视觉任务时并不高效。在面向人类视觉任务时,重建视频的质量可能较差,如包含噪声或分辨率低,重建视频不会被人类观看,而是处理后(去噪、超分辨率)的视频被人类观看,因此重建视频是冗余的。在面向机器分析时,重建视频不会被人类观看,而是被机器分析(识别动作、检测目标物体),因此重建视频是冗余的。
[0011]总体来说,现有各类方案主要存在如下技术问题:(1)编码器需要获得像素域得重建帧才能和当前视频帧进行运动估计;编码器需要先使用光流估计网络得到估计的光流(像素级的运动矢量),然后再编码光流;解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可学习通用视频编码方法,其特征在于,包括:基于特征的视频编码部分:对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码,并经过量化与熵编码获得运动码流,通过对所述运动码流进行熵解码与解码,获得重建运动矢量;结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息,并结合所述多尺度时域上下文信息对当前视频帧进行编码,并经过量化与熵编码获得视频码流,通过对所述视频码流进行熵解码与解码,获得当前视频帧的重建特征;任务处理部分:由任务网络利用输入的各视频帧的重建特征执行指定类型的任务处理;其中,指定类型的任务包括:人类视觉任务和机器视觉任务中的任一种或多种任务。2.根据权利要求1所述的一种可学习通用视频编码方法,其特征在于,所述对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码,并经过量化与熵编码获得运动码流,通过对所述运动码流进行熵解码与解码,获得重建运动矢量包括:通过跨域运动编码器对当前视频帧与上一视频帧的重建特征之间的运动矢量进行预测与编码,获得运动隐变量;经量化模块处理后获得量化后的运动隐变量,再通过运动熵模型进行熵编码,获得运动码流;通过运动熵模型对运动码流进行熵解码,获得量化后的运动隐变量,再通过跨域运动解码器进行解码,获得重建运动矢量;其中,所述跨域运动编码器与跨域运动解码器采用自编码器结构。3.根据权利要求2所述的一种可学习通用视频编码方法,其特征在于,所述通过运动熵模型进行熵编码,获得运动码流包括:估计量化后的运动隐变量的概率分布参数,结合估计的量化后的运动隐变量的概率分布参数对量化后的运动隐变量进行熵编码,获得运动码流;所述通过运动熵模型对运动码流进行熵解码,获得量化后的运动隐变量包括:结合估计的量化后的运动隐变量的概率分布参数对运动码流进行熵解码,获得量化后的运动隐变量。4.根据权利要求1所述的一种可学习通用视频编码方法,其特征在于,结合所述重建运动矢量与上一视频帧的重建特征挖掘出多尺度时域上下文信息的过程通过时域上下文挖掘模块实现,所述时域上下文挖掘模块包括:N个卷积模块、N个反卷积模块、以及N

1个下采样模块,其中,N为设定的正整数;N个卷积模块依次连接,N个反卷积模块依次连接,N

1个下采样模块依次连接;第一个卷积模块与第N个反卷积模块连接,第2个卷积模块与第N

1个反卷积模块连接,依次类推,第N个卷积模块与第1个反卷积模块连接;第1个下采样模块与第2个卷积模块连接,第2个下采样模块与第3个卷积模块连接,依次类推,第N

1个下采样模块与第N个卷积模块连接;第1个下采样模块的输入为重建运动矢量,第1个卷积模块的输入为重建运动矢量与上一视频帧的重建特征,第1个反卷积模块的输入为第N个卷积模块的输出;每一卷积模块包括依次设置的卷积层、残差连接块与扭曲操作层;第1个反卷积模块包括依次设置的卷积层与残差连接块,第2个至第N个反卷积模块包括依次设置的上采样层、残...

【专利技术属性】
技术研发人员:李礼盛锡华刘东李厚强
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1