在视频编解码中使用神经网络滤波制造技术

技术编号:33197897 阅读:14 留言:0更新日期:2022-04-24 00:27
描述了在视频编解码中使用神经网络滤波。还描述了用于媒体处理的方法、系统、装置。数字媒体处理的一种示例方法包括针对视觉媒体数据与视觉媒体数据的比特流之间的转换,根据规则确定如何将一个或多个卷积神经网络滤波器应用于视觉媒体数据的视频单元的至少一些样点,以及基于该确定执行转换。以及基于该确定执行转换。以及基于该确定执行转换。

【技术实现步骤摘要】
在视频编解码中使用神经网络滤波
[0001]相关申请的交叉引用
[0002]根据适用的《专利法》和/或符合《巴黎公约》的规定,本申请及时要求于2020年10月02日提交的美国临时专利申请第63/087,113号的优先权和权益。出于法律规定的所有目的,将上述申请的全部公开内容以引用方式并入作为本申请的公开的一部分。


[0003]本专利文件涉及数字媒体编解码和解码。

技术介绍

[0004]数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加,预计对数字视频使用的带宽需求将继续增长。

技术实现思路

[0005]本文件公开了可由图像、音频或视频编码器和解码器使用以确保编码操作、解码操作和编码的数字媒体片段的完整性的技术。
[0006]在一个示例方面,公开了一种处理视觉媒体数据的方法。该方法包括针对视觉媒体数据和视觉媒体数据的比特流之间的转换,根据规则确定如何将一个或多个卷积神经网络滤波器应用于视觉媒体数据的视频单元的至少一些样点;以及基于该确定执行转换。
[0007]在另一个示例方面,公开了一种视频处理装置。该视频处理装置包括被配置为实现上述方法的处理器。
[0008]在又一个示例方面,公开了一种将视觉媒体数据存储到包括一个或多个比特流的文件的方法。该方法对应于上述方法并且还包括将一个或多个比特流存储到非暂时性计算机可读记录介质。
[0009]在又一个示例方面,公开了一种存储比特流的计算机可读介质。该比特流是根据上述方法生成的。
[0010]在又一个示例方面,公开了一种用于存储比特流的视频处理装置,其中该视频处理装置被配置为实现上述方法。
[0011]在又一个示例方面,公开了一种计算机可读介质,其上的比特流符合根据上述方法生成的文件格式。
[0012]贯穿本文件描述了这些和其他特征。
附图说明
[0013]图1示出了具有18乘12亮度CTU的图片,该图片被分割为12个片和3个光栅扫描条带。
[0014]图2示出了具有18乘12亮度CTU的图片,该图片被划分为24个片和9个矩形条带。
[0015]图3示出了被分割为4个片、11个砖块(brick)和4个矩形条带的图片。
[0016]图4A

图4C示出了CTB跨越图片边界的示例,(a)K=M,L<N;(b)K<M,L=N;(c)K<M,L<N。
[0017]图5示出了编解码器框图的实例。
[0018]图6是8
×
8网格上的图片样点以及水平和垂直块边界,以及可以被并行地去方块的8
×
8样点的非重叠块的图示。
[0019]图7示出了涉及滤波器开/关决策和强/弱滤波器选择的像素。
[0020]图8示出了EO样点分类的四个1

D方向模式:水平(EO类=0)、垂直(EO类=1)、135
°
对角线(EO类=2)和45
°
对角线(EO类=3)。
[0021]图9示出了GALF滤波器形状(左:5
×
5菱形,中:7
×
7菱形,右:9
×
9菱形)。
[0022]图10A

图10C示出了用于5
×
5菱形滤波器支持的相对坐标。图10A示出对角线,图10B示出垂直翻转,以及图10C示出了旋转支持。
[0023]图11示出了用于5
×
5菱形滤波器支持的相对坐标的示例。
[0024]图12A和图12B示出了所提出的CNN滤波器的架构。图12A示出了M表示特征图的数量。N代表一个维度上的样点数量。图12B示出了图12A中的ResBlock(残差块)的构造。
[0025]图13是示例视频处理系统的框图。
[0026]图14是视频处理装置的框图。
[0027]图15是视频处理的示例方法的流程图。
[0028]图16是说明根据本公开的一些实施例的视频编解码系统的框图。
[0029]图17是说明根据本公开的一些实施例的编码器的框图。
[0030]图18是说明根据本公开的一些实施例的解码器的框图。
[0031]图19示出了示例滤波器架构。
[0032]图20示出了基于所公开的技术的一些实现方式的用于处理视觉媒体数据的示例方法的流程图。
具体实施方式
[0033]为了便于理解,在本文件中使用了章节标题,并且不将每个章节中公开的技术和实施例的适用性仅限于该章节。此外,在一些描述中使用H.266术语仅仅是为了便于理解,而不是为了限制所公开技术的范围。这样,本文描述的技术也适用于其他视频编解码器协议和设计。
[0034]1.初步讨论
[0035]本文件与视频编解码技术有关。具体地,它与图像/视频编解码中的环路滤波器有关。它可以被应用于现有的视频编解码标准,如高效视频编解码(HEVC)、多功能视频编解码(VVC)或待定案的标准(例如AVS3)。它还可以被应用于未来的视频编解码标准或视频编解码器,或者用作编码/解码过程之外的后处理方法。
[0036]2.视频编解码介绍
[0037]视频编解码标准主要通过众所周知的ITU

T和ISO/IEC的发展而演变。ITU

T制作了H.261和H.263,ISO/IEC制作了MPEG

1和MPEG

4视觉,并且这两个组织联合制作了H.262/MPEG

2视频和H.264/MPEG

4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了探索HEVC
以外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后,许多新的方法被JVET所采用,并被放入名为联合探索模型(JEM)的参考软件中。2018年4月,在VCEG(Q6/16)和ISO/IEC JTC1SC29/WG11(MPEG)之间创建了联合视频专家团队(JVET)以致力于VVC标准,该VVC标准的目标是与HEVC相比比特率降低50%。VVC第一版于2020年7月定案。
[0038]VVC草案的最新版本,即多功能视频编解码(草案10)可在以下找到:
[0039]phenix.it

sudparis.eu/jvet/doc_end_user/current_document.php?id=10399
[0040]VVC最新的参考软件名为VTM,可在以下找到:
[0041]vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理视觉媒体数据的方法,包括:针对视觉媒体数据和所述视觉媒体数据的比特流之间的转换,根据规则确定如何将一个或多个卷积神经网络滤波器应用于所述视觉媒体数据的视频单元的至少一些样点;以及基于所述确定执行所述转换。2.根据权利要求1所述的方法,其中,使用卷积神经网络来实现所述卷积神经网络滤波器。3.根据权利要求1所述的方法,其中,所述规则指定所述确定基于与所述视频单元相关联的解码的信息,其中所述解码的信息包括预测模式、变换类型、跳过标志或编解码块标志(CBF)值中的至少一个。4.根据权利要求1所述的方法,其中,所述规则指定以小于所述视频单元的粒度控制与所述一个或多个卷积神经网络滤波器相关的信息。5.根据权利要求4所述的方法,其中,所述视频单元是条带或图片或片或子图片或编解码树块或编解码树单元。6.根据权利要求4所述的方法,其中,在样点或像素级别控制所述信息。7.根据权利要求4所述的方法,其中,在行、列或线级别控制所述信息。8.根据权利要求4所述的方法,其中,所述规则指定卷积神经网络滤波器集合是基于所述视觉媒体数据的视频单元内的样点的值或位置来确定的。9.根据权利要求1所述的方法,其中,所述规则指定卷积神经网络滤波器集合的选择取决于所述视频单元的时域层标识和/或所述视频单元的图片组(GOP)大小。10.根据权利要求9所述...

【专利技术属性】
技术研发人员:李跃张莉张凯
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1