用于对深度神经网络进行编码/解码的系统和方法技术方案

技术编号:37363319 阅读:18 留言:0更新日期:2023-04-27 07:11
本公开涉及一种方法,该方法包括:响应于确定至少一个深度神经网络的至少一个层的至少一个第一张量被分解为第二张量和第三张量,该第二张量和第三张量的参数被编码到比特流中,从比特流中解码第二张量和第三张量中的至少一者的大小,以及基于解码大小从比特流中解码第二张量和第三张量中的至少一者。还提供了对应的装置、编码方法、信号;比特流、存储介质和编码器设备和/或解码器设备。和编码器设备和/或解码器设备。和编码器设备和/或解码器设备。

【技术实现步骤摘要】
【国外来华专利技术】用于对深度神经网络进行编码/解码的系统和方法
[0001]本公开的一个或多个实施方案的领域
涉及数据处理的
,如数据压缩和/或解压缩。例如,至少一些实施方案涉及关于大量数据的数据压缩/解压缩,如音频和/或视频流的至少一部分的压缩和/或解压缩,或如与深度学习技术有关的数据压缩和/或解压缩,如深度神经网络(DNN)的至少一些参数。
[0002]与现有的视频压缩系统诸如HEVC(HEVC是指高效视频编码,也称为H.265和MPEG

H第2部分,其在“ITU

T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务基础设施

移动视频的编码,高效视频编码,ITU

T H.265建议书”中进行描述)相比,或者与开发中的视频压缩系统诸如VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)相比,至少一些实施方案涉及改进压缩效率。
[0003]为了实现高压缩效率,图像和视频编码方案通常采用预测(包括空间和/或运动向量预测)和变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关性,然后对在原始图像与预测图像之间的差值(通常表示为预测错误或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。
[0004]与现有的深度神经网络(DNN)压缩系统相比,至少一些实施方案涉及提高压缩效率,诸如一些压缩标准或草案标准,如目前由国际标准化组织开发的目前即将推出的用于多媒体内容描述和分析的神经网络标准ISO/MPEG7。
[0005]通常,在编码过程中,对DNN参数进行量化和熵编码以得到压缩数据。为了重构数据,对压缩数据进行解码,解码过程包括熵解码和逆量化。

技术实现思路

[0006]本专利技术原理能够通过提出一种用于对至少一个比特流中的数据进行编码或解码的方法和装置来解决一些已知压缩和/或解压缩方法的缺点中的至少一个缺点,数据是至少一个深度神经网络的至少一个层或子层的至少一个张量的一个或多个参数。要指出的是,与层相关联的参数的张量可以包括权重和/或偏差,即使在下文中为了简洁的目的有时简称为“权重”。
[0007]根据一个实施方案,提供了一种用于对至少一个深度神经网络的至少一个层的至少一个第一张量进行解码的方法。此类方法包括:响应于确定至少一个第一张量被分解为第二张量和第三张量,该第二张量和第三张量的参数被编码到比特流中,从比特流中解码第二张量和第三张量中的至少一者的大小,以及基于解码大小从比特流中解码第二张量和第三张量中的至少一者。
[0008]根据另一实施方案,提供了一种用于对至少一个深度神经网络的至少一个层的至少一个第一张量进行解码的装置。该装置包括一个或多个处理器,该一个或多个处理器被配置为:确定至少一个深度神经网络的至少一个层的至少一个第一张量被分解为第二张量和第三张量,该第二张量和第三张量的参数被编码到比特流中,从比特流中解码第二张量和第三张量中的至少一者的大小,基于解码大小从比特流中解码第二张量和第三张量中的
至少一者。
[0009]根据另一实施方案,提供了一种方法,该方法包括将表示深度神经网络的至少一个层的至少一个第一张量的数据编码到比特流中。该方法包括:响应于确定至少一个第一张量被分解为第二张量和第三张量,对第二张量和第三张量中的至少一者的大小进行编码,对表示第二张量和第三张量中的至少一者的参数进行编码。
[0010]根据另一实施方案,提供了一种用于将表示深度神经网络的至少一个层的至少一个第一张量的数据编码到比特流中的装置,其中该装置包括一个或多个处理器,其中一个或多个处理器被配置用于确定至少一个第一张量被分解为第二张量和第三张量,响应于该确定,对第二张量和第三张量中的至少一者的大小进行编码,对第二张量和第三张量中的至少一者进行编码。
[0011]一个或多个实施方案还提供了一种计算机程序,该计算机程序包括指令,该指令在由一个或多个处理器执行时使该一个或多个处理器执行根据上述任一实施方案中的编码方法或解码方法。本专利技术实施方案中的一个或多个实施方案还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有用于根据上述方法对数据进行编码或解码的指令。一个或多个本专利技术实施方案还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有根据上述方法生成的码流。一个或多个本专利技术实施方案还提供了一种用于发送或接收根据上述方法生成的码流的方法和装置。
[0012]根据至少一个实施方案的另一个一般方面,提供了一种设备,该设备包括:根据解码实施方案中的任一实施方案的装置;以及以下项中的至少一者:(i)天线,该天线被配置为接收信号,该信号包括输入数据;(ii)频带限制器,该频带限制器被配置为将所接收的信号限制为包括该输入数据的频带;或(iii)显示器,该显示器被配置为显示表示视频块的输出。
[0013]虽然未明确描述,但本公开的设备可适于在其实施方案中的任一实施方案中执行本公开的方法。
[0014]虽然未明确描述,但与方法或与对应信号、设备和计算机可读存储介质相关的本专利技术实施方案能够以任何组合或子组合来使用。
附图说明
[0015]图1示出了通用的标准编码方案。
[0016]图2示出了通用的标准解码方案。
[0017]图3示出了可实现所述实施方案的典型处理器布置;
[0018]图4示出了使用本公开的编码方法的至少某些实施方案的DNN总体编码架构;
[0019]图5示出了使用本公开的编码方法的至少某些实施方案的DNN总体解码架构;
[0020]图6示出了根据本公开的一个实施方案的用于对编码到比特流中的DNN的张量进行解码的方法的示例;
[0021]图7示出了根据本公开的一个实施方案的用于将DNN的张量编码到比特流中的方法的示例。
[0022]图8示出了根据一个实施方案的包括表示深度神经网络的至少一个层的第一张量的数据的比特流的一部分的示例。
[0023]应当注意,附图例示了示例性实施方案,并且本公开的实施方案不限于所例示的实施方案。
具体实施方式
[0024]许多
可涉及用计算机装置处理大量数据。此类处理可涉及数据压缩和/或数据解压缩,例如出于存储或传输此类数据的至少一部分的目的。包含大量数据的流的压缩和/或解压缩的示例可见于视频处理的
中,或见于涉及深度学习技术的
中。
[0025]作为示例性而非限制性目的,在下文中结合深度神经网络(DNN)详细描述本公开的实施方案。然而,很明显,本公开也可以应用于其他大量数据的压缩/解压缩,如在视频处理
中。例如,本公开可以应用于通过深度学习算法从至少一个图像获得的张量的压缩/解压缩。
[0026]深度神经网络(DNN)已经在各种领域(诸如多媒体处理、计算机视觉、语音识别、自然语言处理等)中表现出先进的性能。然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,所述方法包括:

响应于确定至少一个深度神经网络的至少一个层的至少一个第一张量被分解为第二张量和第三张量,所述第二张量和第三张量的参数被编码到比特流中,从所述比特流中解码所述第二张量和所述第三张量中的至少一者的大小,

基于所述解码大小对所述第二张量和所述第三张量中的所述至少一者进行解码。2.一种装置,所述装置包括一个或多个处理器,所述一个或多个处理器被配置为:

确定至少一个深度神经网络的至少一个层的至少一个第一张量被分解为第二张量和第三张量,所述第二张量和第三张量的参数被编码到比特流中,

从所述比特流中解码所述第二张量和所述第三张量中的至少一者的大小,

基于所述解码大小对所述第二张量和所述第三张量中的至少一者进行解码。3.根据权利要求1所述的方法,所述方法进一步包括,或根据权利要求2所述的装置,其中所述一个或多个处理器被进一步配置用于从所述比特流中对被分解为所述第二张量和所述第三张量的所述至少一个第一张量的张量分解的分解秩进行解码。4.根据权利要求1或3所述的方法,所述方法进一步包括,或根据权利要求2或3所述的装置,其中所述一个或多个处理器被进一步配置用于从所述解码大小导出所述第二张量和所述第三张量中的另一张量的大小。5.根据权利要求4所述的方法,所述方法进一步包括,或根据权利要求4所述的装置,其中所述一个或多个处理器被进一步配置用于基于所述导出的大小对所述第二张量和所述第三张量中的另一张量进行解码。6.根据权利要求1或3至5中任一项所述的方法,所述方法进一步包括,或根据权利要求2或3至5所述的装置,其中所述一个或多个处理器被进一步配置用于从所述解码的第二张量和所述解码的第三张量重构所述至少一个第一张量。7.根据权利要求6所述的方法或装置,其中在所述至少一个第一张量的重构期间,所述至少一个第二张量和所述至少一个第三张量中的第一解码张量被存储在解码张量缓冲器中。8.根据权利要求6或7所述的方法,所述方法进一步包括,或根据权利要求6或7所述的装置,其中所述一个或多个处理器被进一步配置用于:从所述比特流中解码表示模式的信息,所述模式用于从所述解码的第二张量和所述解码的第三张量以所述第一张量的原始形状重构所述第一张量。9.根据权利要求7至8中任一项所述的方法或装置,其中对所述第二张量或所述第三张量中的一者进行解码包括:

响应于确定所述至少一个第二张量和所述至少一个第三张量中的另一张量不存在于所述解码张量缓冲器中,将所述一个解码张量存储在所述解码张量缓冲器中。10.根据权利要求9所述的方法或装置,其中确定所述至少一个第二张量和所述至少一个第三张量中的另一张量不存在于所述解码张量缓冲器中是响应于所述解码张量的类型。11.根据权利要求9至10中任一项所述的方法或装置,其中确定所述至少一个第二张量和所述至少一个第三张量中的另一张量不存在于所述解码张量缓冲器中包括寻找与标识符相关联的张量,所述标识符指定与所述解码张量相同的层。12.根据权利要求7至11中任一项所述的方法或装置,其中所述解码张量缓冲器被配置
为存储多于一个解码张量。13.一种方法,所述方法包括将表示所述深度神经网络的至少一个层的至少一个第一张量的数据编码到比特流中,其中对数据进行编码包括:

【专利技术属性】
技术研发人员:F
申请(专利权)人:交互数字VC控股法国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1