一种使用神经网络编码或解码图像的方法和装置制造方法及图纸

技术编号:38635134 阅读:13 留言:0更新日期:2023-08-31 18:31
一种使用神经网络对图像进行编码或解码的方法和装置。本发明专利技术公开了对图像进行编码和对可表示经编码图像的码流进行解码的方法和系统。在编码和解码的过程中,缩放操作用于将输入缩放到可以通过神经网络中的一层处理的大小。本文中公开的实施例提供了减小码流大小的缩放所采用的方法,从而改进了压缩。从而改进了压缩。从而改进了压缩。

【技术实现步骤摘要】
【国外来华专利技术】一种使用神经网络编码或解码图像的方法和装置
[0001]本专利技术涉及一种使用神经网络对图像进行编码的方法和一种使用神经网络对图像进行解码的方法。本专利技术还涉及一种对图像进行编码的编码器和一种对图像进行解码的解码器以及一种计算机可读存储介质。

技术介绍

[0002]视频译码(视频编码和解码)广泛用于数字视频应用,例如,广播数字电视、基于互联网和移动网络的视频传输、视频聊天和视频会议等实时会话应用、DVD和蓝光光盘、视频内容采集和编辑系统以及安全应用的可携式摄像机。
[0003]即使视频相对较短,也需要大量的视频数据来描述,当数据要在带宽容量有限的通信网络中流式传输或以其它方式传输时,这样可能会造成困难。因此,视频数据通常要先压缩,然后通过现代电信网络进行传输。由于内存资源可能有限,当在存储设备中存储视频时,该视频的大小也可能是一个问题。视频压缩设备通常在信源侧使用软件和/或硬件对视频数据进行编码,然后传输或存储视频数据,从而减少表示数字视频图像所需的数据量。然后,对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下,需要改进压缩和解压缩技术,这些改进的技术能够在几乎不影响图像质量的情况下提高压缩比。
[0004]如今,神经网络和使用神经网络的深度学习技术已经在视频、图像等的编码和解码的
中使用了一段时间。
[0005]在这类情况下,码流通常表示或者是可以由包括值的二维矩阵合理表示的数据。例如,这适用于表示或者是图像、视频序列或类似数据的码流。除了2D数据之外,本专利技术中提到的神经网络和框架可以应用于音频信号等更多源信号,这些源信号通常表示为1D信号或其它信号。
[0006]例如,包括多个下采样层的神经网络可以将下采样(在下采样层是卷积层的情况下,将卷积)应用于待编码输入,例如,图像。通过将这种下采样应用于输入图像,输入图像的大小会减小,而且这种操作可以重复,直到获取到最终大小。这类神经网络既可以用于使用深度学习神经网络进行图像识别,也可以用于对图像进行编码。相应地,这类网络可以用于对经编码图像进行解码。其它源信号,例如,具有两个以下或以上维度的信号,也可以通过类似的网络处理。
[0007]希望提供一种可以高效地应用于大小上可能不同的各种不同信号的神经网络框架。

技术实现思路

[0008]本专利技术的一些实施例可以减小携带信息的码流的大小,同时仍然确保原始信息可以在丢失尽可能少的信息的情况下重建。
[0009]一些实施例提供了根据独立权利要求1所述的使用神经网络对码流进行编码的方法以及根据权利要求29所述的使用神经网络对码流进行解码的方法、根据权利要求55或56
所述的对图像进行编码的编码器和根据权利要求57或58所述的对码流进行解码的解码器以及根据权利要求59所述的计算机可读存储介质。其它优选实施例在从属权利要求中提供。
[0010]本专利技术提供了一种使用神经网络(neural network,NN)对图像进行编码的方法。所述NN包括多个层,所述多个层包括至少一个下采样层,所述至少一个下采样层将下采样应用于表示在至少一个维度上具有大小S的矩阵的输入,所述方法包括:在使用所述至少一个下采样层处理所述输入之前,将缩放应用于所述输入,其中,所述缩放包括在所述至少一个维度上改变所述大小,使得其中,r>1,r是所述至少一个下采样层的下采样比;在所述缩放之后,通过所述至少一个下采样层处理所述输入,并且提供具有大小S1<S的输出;在使用所述NN处理所述图像之后(例如,在使用所述NN中的每一层处理所述图像之后),提供码流作为所述NN的输出。
[0011]在本专利技术的上下文中,上述图像可以在视频或视频序列的意义上理解为静止图像或运动图像。此外,本专利技术中的图像也可以只属于较大(总)图像的一部分。另外,上述图像也可以称为帧。在任何情况下,都可以认为图像是或者可表示为矩阵形式的包括值(通常称为样本)的二维或二维以上数组,然后,该图像可以通过神经网络处理,具体是通过下采样层以上述方式处理。
[0012]本专利技术提供的码流可以是或可以包括经编码图像。码流可以包括其它信息(边信息),例如,这些信息属于对码流进行解码以重建图像所需的信息。
[0013]在这种上下文中,当码流表示为矩阵时,码流的大小在至少一个维度上小于最初输入的图像的大小。这里的术语“大小”是指,例如,样本在一个或多个维度(例如,宽度和高度)上的数量。大小还可以表示分辨率,分辨率的典型特征是每个图像或图像区域的样本数量。
[0014]需要说明的是,本专利技术并不限于输入图像的所有维度都在编码器的输出处降低的情况。例如,输入图像可以仅在其中一个维度上减小大小。
[0015]此外,码流可能存在第三维度,等等,其中,第三维度上的大小可能比输入图像的对应维度大。第三维度可能表示特征图的数量,特征图也可以称为通道。在一个具体的示例中,第三维度上的大小在输入(图像)处可能是3,而在输出(码流)处可能是192。特征图的大小通常通过编码器增大,以便根据特征图的重要性高效地对输入进行分类。
[0016]下采样可以通过任何已知的或技术上合理的方式来实现。例如,下采样可以包括通过将卷积应用于相应下采样层的输入而进行的下采样。在这种上下文中,下采样层可以具体地实现为将卷积应用于输入的卷积层。
[0017]当输入图像以矩阵的形式表示时,下采样可以仅在输入图像的一个维度上执行。下采样也可以应用于矩阵的多个或所有维度。但是,本专利技术并不限于任何特定的下采样。一个或多个处理层可以通过以下方式应用除卷积以外的下采样:例如,删除(移除)输入图像或输入特征图中的每两行和/或列或每三行和/或列,等等。
[0018]可以理解的是,本文中提供的本专利技术实施例使得在通过相应的下采样层处理输入之前立即应用缩放。如果神经网络中包括多个下采样层,则在每个相应的下采样层之前,但在通过用前一层处理输入之后,应用缩放。因此,根据上文内容,缩放取决于相应下采样层的下采样比。
[0019]需要说明的是,在一些实施例中,只有先前的确定表明需要缩放,这种缩放才应用于输入。在将缩放操作应用于输入之前,可以检查是否要应用缩放。例如,可以检查S=n
·
r是否成立。在这种情况下,因为下采样层的输入的大小已经是下采样比的整数倍,所以可以确定不需要缩放。
[0020]通过逐层应用缩放,缩放的执行使得对输入进行尽可能少地修改。由此,可以尽可能少地降低质量和/或增大输入的大小。
[0021]在一个实施例中,所述NN包括个下采样层,每个下采样层m具有关联的下采样比r
m
>1,其中,m≤M,m≤M,所述方法还包括:在使用下采样层m处理表示在至少一个维度上具有大小S
m
的矩阵的输入之前,如果所述大小S
m
不是所述下采样层m的下采样比r
m
的整数倍,将缩放应用于所述输入,其中,所述缩放包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用神经网络(neural network,NN)对图像进行编码的方法,其特征在于,所述NN包括多个层,所述多个层包括至少一个下采样层(2110、2120、2130、2140),所述至少一个下采样层将下采样应用于表示在至少一个维度上具有大小S的矩阵的输入(2101、2102、2103、2104),所述方法包括:在使用所述至少一个下采样层处理(2311)所述输入之前,将缩放应用(2321)于所述输入,其中,所述缩放包括在所述至少一个维度上改变所述大小S,使得其中,r>1,r是所述至少一个下采样层的下采样比;在所述缩放之后,通过所述至少一个采样层(2110、2120、2130、2140)处理(2311)所述输入,并且提供(2312)具有大小S1<S的输出;在使用所述NN处理所述图像之后,提供码流作为所述NN的输出。2.根据权利要求1所述的方法,其特征在于,所述NN包括个下采样层,每个下采样层m(2110、2120、2130、2140)具有关联的下采样比r
m
>1,其中,m≤M,所述方法还包括:在使用下采样层m处理(2311)表示在至少一个维度上具有大小S
m
的矩阵的输入(2101、2102、2103、2104)之前,如果所述大小S
m
不是所述下采样层m的下采样比r
m
的整数倍,将缩放应用于所述输入,其中,所述缩放包括在所述至少一个维度上改变所述大小S
m
,使得其中,3.根据权利要求2所述的方法,其特征在于,在将所述缩放应用(2321)于所述具有大小S
m
的输入(2101、2102、2103、2104)之前,确定S
m
是否是所述下采样比r
m
的整数倍,如果确定S
m
不是所述下采样比r
m
的整数倍,所述缩放应用于所述输入,使得所述大小S
m
在所述至少一个维度上改变,使得其中,4.根据权利要求2或3所述的方法,其特征在于,如果所述输入(2101、2102、2103、2104)的大小S
m
是所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的整数倍,则在通过所述下采样层m处理所述输入之前,所述输入不缩放到大小5.根据权利要求3或4所述的方法,其特征在于,所述确定S
m
是否是所述下采样比r
m
的整数倍包括:将所述大小S
m
与所述下采样层m(2110、2120、2130、2140)的允许输入大小进行比较。6.根据5所述的方法,其特征在于,所述下采样层m的允许输入大小是根据所述下采样比r
m
和所述大小S
m
中的至少一个计算的。7.根据权利要求5或6所述的方法,其特征在于,所述比较包括:计算S
m
与所述下采样层m(2110、2120、2130、2140)的允许输入大小之间的差值。8.根据权利要求5或7中任一项所述的方法,其特征在于,所述比较包括:确定或9.根据权利要求8所述的方法,其特征在于,确定的是如果则所述缩放应用于所述具有大小S
m
的输入。10.根据权利要求8所述的方法,其特征在于,确定的是如果
则所述缩放应用于所述具有大小S
m
的输入。11.根据权利要求10所述的方法,其特征在于,所述大小是根据所述下采样比r
m
和所述大小S
m
中的至少一个确定的。12.根据权利要求11所述的方法,其特征在于,所述大小是根据包括ceil、int、floor中的至少一个的函数确定的。13.根据权利要求12所述的方法,其特征在于,所述大小是根据确定的;或者所述大小是根据确定的;或者所述大小是根据确定的。14.根据权利要求2至13中任一项所述的方法,其特征在于,所述应用于下采样层m的输入(2101、2102、2103、2104)的缩放与其它下采样层的下采样比r
k
无关,其中,k≠m。15.根据权利要求1至14中任一项所述的方法,其特征在于,所述下采样层m的输入(2101、2102、2103、2104)在所述至少一个维度上具有大小S
m
,所述大小的值在所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的最接近但小于所述大小的整数倍和所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的最接近但大于所述大小的整数倍之间,所述输入的大小S
m
根据条件在所述缩放的过程中改变,以与所述下采样比r
m
的最接近但小于所述大小的整数倍匹配或者与所述下采样比r
m
的最接近但小于所述大小的整数倍匹配。16.根据权利要求1至15中任一项所述的方法,其特征在于,所述下采样层m的输入(2101、2102、2103、2104)在所述至少一个维度上具有大小S
m
,所述大小的值不是所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的整数倍,所述输入的大小S
m
在所述缩放的过程中改变,以与所述下采样比r
m
的最接近但小于所述大小的整数倍匹配或者与所述下采样比r
m
的最接近但大于所述大小的整数倍匹配。17.根据权利要求1至16中任一项所述的方法,其特征在于,所述下采样层m的输入(2101、2102、2103、2104)在所述至少一个维度上具有大小S
m
,其中,lr
m
≤S
m
≤r
m
(l+1),l和r
m
是所述下采样层m(2110、2120、2130、2140)的下采样比,所述大小S
m
根据条件缩放到或18.根据权利要求1至17所述的方法,其特征在于,如果所述输入(2101、2102、2103、2104)的大小S
m
更接近所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的最接近但小于所述大小的整数倍,而不是更接近所述下采样比r
m
的最接近但大于所述大小的整数倍,则所述输入的大小S
m
减小到与所述下采样比r
m
的最接近但小于所述大小的整数倍匹配的大小19.根据权利要求18所述的方法,其特征在于,将所述输入(2101、2102、2103、2104)的大小S
m
减小到所述大小包括:裁剪所述输入。20.根据权利要求1至19中任一项所述的方法,其特征在于,如果所述输入(2101、2102、2103、2104)的大小S
m
更接近所述下采样层m(2110、2120、2130、2140)的下采样比r
m
的最接近
但大于所述大小的整数倍,而不是更接近所述下采样比r
m
的最接近但小于所述大小的整数倍,则所述输入的大小S
m
增大到与所述下采样比r
m
的最接近但大于所述大小的整数倍匹配的大小21.根据权利要求20所述的方法,其特征在于,将所述输入(2101、2102、2103、2104)的大小S
m
增大到所述大小包括:用0或用从所述具有大小S
m
的输入中获取到的填充信息来填充所述具有大小S
m
的输入。22.根据权利要求21所述的方法,其特征在于,所述从所述具有大小S
m
的输入中获取到的填充信息作为冗余填充信息,以将所述输入(2101、2102、2103、2104)的大小S
m
增大所述大小23.根据权利要求22所述的方法,其特征在于,所述用冗余填充信息来填充包括反射填充和重复填充中的至少一种。24.根据权利要求22或23所述的方法,其特征在于,所述填充信息是或包括所述具有大小S
m
的输入的至少一个值,所述至少一个值最接近所述输入(2101、2102、2103、2104)中要添加所述冗余填充信息的区域。25.根据权利要求1或13所述的方法,其特征在于,所述下采样层m(2110、2120、2130、2140)的输入(2101、2102、2103、2104)的大小S
m
增加到与所述下采样比r
m
的最接近但大于所述大小的整数倍匹配的大小26.根据权利要求17所述的方法,其特征在于,所述条件使用Min(|S

lr
m
|,|S

r
m
(l+1)|),所述条件包括:如果Min产生|S
m

lr
m
|,则所述输入的大小S
m
减小到如果Min产生|S
m

(l+1)r
m
|,则所述输入的大小S
m
增加到27.根据权利要求26所述的方法,其特征在于,l是根据所述下采样层m(2110、2120、2130、2140)的输入的大小S
m
和所述下采样层m的下采样比r
m
中的至少一个确定的。28.根据权利要求27所述的方法,其特征在于,l是根据确定的和/或l+1是根据确定的。29.根据权利要求1至28中任一项所述的方法,其特征在于,所述下采样层(2110、2120、2130、2140)中的至少一个下采样层在两个维度上将下采样应用于所述输入(2101、2102、2103、2104),第一维度上的下采样比等于第二维度上的下采样比。30.根据权利要求1至29中任一项所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:伊蕾娜
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1