一种使用包括子网的神经网络编码或解码图像的方法和装置制造方法及图纸

技术编号:38764140 阅读:28 留言:0更新日期:2023-09-10 10:37
本发明专利技术涉及一种使用包括多个子网的神经网络对图像进行编码的方法,以及一种使用神经网络对表示图像的码流进行解码的方法。用于解码的所述神经网络同样可以包括多个子网。所述编码器的所述子网包括一个或多个下采样层,而所述解码器的所述子网包括一个或多个上采样层。同样讨论了对应的编码器和解码器。同样讨论了对应的编码器和解码器。同样讨论了对应的编码器和解码器。

【技术实现步骤摘要】
【国外来华专利技术】一种使用包括子网的神经网络编码或解码图像的方法和装置
[0001]本专利技术涉及一种使用包括至少两个子网的神经网络对图像进行编码的方法,以及一种使用包括至少两个子网的神经网络对图像进行解码的方法。此外,这里提出的公开内容涉及实现用于编码图像的神经网络的编码器和实现用于解码图像的神经网络的解码器,以及具有计算机可执行指令的计算机可读存储介质。

技术介绍

[0002]视频译码(视频编码和解码)广泛用于数字视频应用,例如广播数字电视、基于互联网和移动网络的视频传输、视频聊天和视频会议等实时会话应用、DVD和蓝光光盘、视频内容采集和编辑系统以及安全应用的可携式摄像机。
[0003]即使视频相对较短,也需要大量的视频数据来描述,当数据要在带宽容量有限的通信网络中流式传输或以其它方式传输时,这样可能会造成困难。因此,视频数据通常要先压缩,然后通过现代电信网络进行传输。由于内存资源可能有限,当在存储设备中存储视频时,该视频的大小也可能是一个问题。视频压缩设备通常在信源侧使用软件和/或硬件对视频数据进行编码,然后传输或存储视频数据,从而减少表示数字视频图像所需的数据量。本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用神经网络(neural network,NN)(2100)对图像进行编码的方法(2200),其特征在于,所述NN包括至少两个子网(2110、2120),其中,所述至少两个子网中的至少一个子网包括至少两个下采样层(2111、2112、2121、2122),其中,所述至少一个子网对表示在至少一个维度上具有大小S1的矩阵的输入应用下采样,所述方法包括:

在使用包括所述至少两个下采样层的所述至少一个子网处理所述输入之前,对所述输入应用(2221)缩放,其中,所述缩放包括将所述至少一个维度上的所述大小S1改变为使得是所述至少一个子网的组合下采样比R1的整数倍;

在所述缩放之后,由包括所述至少两个下采样层的所述至少一个子网处理(2211)所述输入,并提供具有大小S2的输出,其中,S2小于S1;

在使用所述NN处理所述图像之后,提供码流(2103、2105)作为输出。2.根据权利要求1所述的方法,其特征在于,所述NN(2100)包括个子网(2110、2120)k,k≤K,每个子网包括至少两个下采样层(2111、2112、2121、2122),其中,所述方法还包括:

在使用子网k处理表示在至少一个维度上具有大小S
k
的矩阵的输入之前,如果所述大小S
k
不是所述子网的组合下采样比R
k
的整数倍,则对所述输入应用(2221)缩放,其中,所述缩放包括改变所述至少一个维度上的所述大小S
k
,使得使得3.根据权利要求1或2所述的方法,其特征在于,所述子网中的至少两个子网各自提供子码流(2103、2105)作为输出。4.根据权利要求2或3所述的方法,其特征在于,在对具有所述大小S
k
的所述输入应用所述缩放之前,确定(2202)S
k
是否是所述子网k的所述组合下采样比R
k
的整数倍,并且如果确定(2220)S
k
不是所述子网k的所述组合下采样比R
k
的整数倍,则对所述输入应用(2221)所述缩放,以便所述至少一个维度上的所述大小S
k
被改变,使得使得5.根据权利要求2至4中任一项所述的方法,其特征在于,如果所述输入的所述大小S
k
是所述子网k(2210)的所述组合下采样比R
k
的整数倍,则在所述子网k处理(2211)所述输入之前,不对所述输入应用缩放至大小6.根据权利要求4或5所述的方法,其特征在于,所述确定S
k
是否是所述组合下采样比R
k
的整数倍包括将所述大小S
k
与所述子网k的允许输入大小进行比较。7.根据权利要求6所述的方法,其特征在于,所述子网k的所述允许输入大小是基于所述组合下采样比R
k
和所述大小S
k
中的至少一个计算的。8.根据权利要求6或7所述的方法,其特征在于,所述比较包括计算S
k
与所述子网k的所述允许输入大小之间的差值。9.根据权利要求5至7中任一项所述的方法,其特征在于,所述允许输入大小是根据或确定的。10.根据权利要求9所述的方法,其特征在于,确定如果如果则对具有所述大小S
k
的所述输入应用所述缩放。11.根据权利要求10所述的方法,其特征在于,确定如果
则对具有所述大小S
k
的所述输入应用所述缩放。12.根据权利要求11所述的方法,其特征在于,所述大小是使用所述组合下采样比R
k
或所述大小S
k
中的至少一个确定的。13.根据权利要求12所述的方法,其特征在于,所述大小是使用包括ceil、int、floor中的至少一个的函数确定的。14.根据权利要求13所述的方法,其特征在于:

所述大小是使用确定的;或

所述大小是使用确定的;或

所述大小是使用确定的;或,

所述大小是使用确定的。15.根据权利要求2至14中任一项所述的方法,其特征在于,对子网k的输入应用的所述缩放与所述NN的其它子网的组合下采样比R
l
,l≠k无关,和/或对子网k的输入应用的所述缩放与所述NN的其它子网的下采样层的下采样比r
l,m
,l≠k无关。16.根据权利要求1至15中任一项所述的方法,其特征在于,子网k的所述输入在所述至少一个维度中具有大小S
k
,所述大小S
k
的值在所述子网k的所述组合下采样比R
k
的最接近较小整数倍与所述子网k的所述组合下采样比R
k
的最接近较大整数倍之间,根据条件(2403),所述输入的所述大小S
k
在所述缩放期间被改变,以匹配(2321)所述组合下采样比R
k
的所述最接近较小整数倍或匹配(2311)所述组合下采样比R
k
的所述最接近较大整数倍。17.根据权利要求1至16中任一项所述的方法,其特征在于,子网k的所述输入在所述至少一个维度中具有大小S
k
,所述大小S
k
的值不是所述子网k的所述组合下采样比R
k
的整数倍,所述输入的所述大小S
k
在所述缩放期间被改变,以匹配(2321)所述组合下采样比R
k
的所述最接近较小整数倍或匹配(2311)所述组合下采样比R
k
的所述最接近较大整数倍。18.根据权利要求1至17中任一项所述的方法,其特征在于,子网k的所述输入在所述至少一个维度中具有大小S
k
,其中,lR
k
≤S
k
≤R
k
(l+1),R
k
是所述子网k的所述组合下采样比,并且根据条件将所述大小S
k
缩放为或(2311)。19.根据权利要求1至18中任一项所述的方法,其特征在于,如果相比于所述子网k的所述组合下采样比R
k
的所述最接近较大整数倍,所述输入的所述大小S
k
更接近所述组合下采样比R
k
的所述最接近较小整数倍,则所述输入的所述大小S
k
被减小(2321)到与所述组合下采样比R
k
的所述最接近较小整数倍匹配的大小20.根据权利要求19所述的方法,其特征在于,将所述输入的所述大小S
k
减小(2321)到所述大小包括裁剪所述输入。21.根据权利要求1至20中任一项所述的方法,其特征在于,如果相比于所述子网k的所述组合下采样比R
k
的所述最接近较小整数倍,所述子网k的所述输入的所述大小S
k
更接近所述组合下采样比R
k
的所述最接近较大整数倍,则所述输入的所述大小S
k
增大(2311)到与所
述组合下采样比R
k
的所述最接近较大整数倍匹配的大小22.根据权利要求21所述的方法,其特征在于,将所述输入的所述大小S
k
增大到所述大小包括用零填充或用从具有所述大小S
k
的所述输入获得的填充信息填充具有所述大小S
k
的所述输入。23.根据权利要求22所述的方法,其特征在于,从具有所述大小S
k
的所述输入获得的所述填充信息作为冗余填充信息应用,以将所述输入的所述大小S
k
增大到所述大小24.根据权利要求23所述的方法,其特征在于,用冗余填充信息填充包括反射填充和重复填充中的至少一种。25.根据权利要求23或24所述的方法,其特征在于,所述填充信息是或包括具有所述大小S
k
的所述输入的至少一个值,所述至少一个值最接近所述输入中待添加所述冗余填充信息的区域。26.根据权利要求1或15所述的方法,其特征在于,所述子网k的所述输入的所述大小S
k
增大(2311)到与所述下采样比R
k
的所述最接近较大整数倍匹配的大小27.根据权利要求19所述的方法,其特征在于,所述条件利用Min(|S
k

lR
k
|,|S
k

R
k
(l+1)|),其中,所述条件包括,如果Min抛出|S
k

lR
k
|,则所述输入的所述大小S
k
减小(2321)到如果Min抛出|S
k

R
k
(l+1)|,则所述输入的所述大小S
k
增大(2311)到28.根据权利要求27所述的方法,其特征在于,l是使用所述子网k的所述输入的所述大小S
k
和所述子网k的所述组合下采样比R
k
中的至少一个确定的。29.根据权利要求28所述的方法,其特征在于,l是由确定的和/或l+1是由确定的。30.根据权利要求1至29中任一项所述的方法,其特征在于,至少一个子网(2110、2120)的所述下采样层(2111、2112、2121、2122)中的至少一个下采样层在两个维度中对所述输入应用下采样,并且第一维度中的下采样比等于第二维度中的下采样比。31.根据权利要求1至30中任一项所述的方法,其特征在于,所述子网(2110、2120)的所有下采样层(2111、2112、2121、2122)的下采样比相等。32.根据权利要求1至31中任一项所述的方法,其特征在于,所有子网(2110、2120)包括相同数量的下采样层(2111、2112、2121、2122)。33.根据权利要求32所述的方法,其特征在于,所有子网(2110、2120)的所有下采样层(2111、2112、2121、2122)的下采样比相等。34.根据权利要求1至31中任一项所述的方法,其特征在于,所述NN的至少两个子网(2110、2120)具有不同数量的下采样层(2111、2112、2121、2122)。35.根据权利要求1至32或34中任一项所述的方法,其特征在于,子网k的至少一个下采样层m的至少一个下采样比r
k,m
与子网l的至少一个下采样层n的至少一个下采样比r
l,n
不同。36.根据权利要求35所述的方法,其特征在于,所述子网k和l是不同的子网。
37.根据权利要求35或36所述的方法,其特征在于,当从通过所述子网的所述输入的处理顺序来看时,所述下采样层m和所述下采样层n位于所述子网k和l内的不同位置。38.根据权利要求2所述的方法,其特征在于,如果确定子网k的输入的大小S
k
不是所述组合下采样比R
k
的整数倍,则所述缩放包括应用插值滤波器。39.一种用于使用神经网络(neural network,NN)(2400)对表示图像的码流(2401)进行解码的方法(2500),其特征在于,所述NN包括至少两个子网(2410、2420),其中,所述至少两个子网中的至少一个子网包括至少两个上采样层(2411、2412、2421、2422),其中,所述至少一个子网对表示在至少一个维度中具有大小T1的矩阵的输入应用上采样,所述方法包括:

处理(2501)所述至少两个子网中的第一子网的输入,并提供所述第一子网的输出,其中,所述输出具有对应于所述大小T1与U1的乘积的大小其中,U1是所述第一子网的组合上采样比U1;

在后续子网以通过所述NN的所述码流的处理顺序处理所述第一子网的所述输出之前,对所述第一子网的所述输出应用(2503)缩放,其中,所述缩放包括基于获得的信息将所述输出在所述至少一个维度中的所述大小改变为所述至少一个维度中的大小

处理(2504)由所述第二子网缩放的输出,并提供所述第二子网的...

【专利技术属性】
技术研发人员:伊蕾娜
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1