使用在分块之间共享的信息进行并行上下文建模制造技术

技术编号：40298834 阅读：7 留言：0更新日期：2024-02-07 20:46

描述了用于对潜在张量进行熵编码和解码的装置和方法，其中，包括将潜在张量划分为分块，通过神经网络的一个或多个层处理来自不同分块的一组元素来获取用于对潜在张量的当前元素进行熵编码的概率模型。通过应用卷积核对该一组元素进行处理实现在划分的分块之间共享信息。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、视频译码(视频编码和解码)广泛用于数字视频应用，例如广播数字电视、基于互联网和移动网络的视频传输、视频聊天和视频会议等实时会话应用、dvd和蓝光光盘、视频内容采集和编辑系统以及安全应用的可携式摄像机。

2、即使视频相对较短，也需要大量的视频数据来描述，当数据要在带宽容量有限的通信网络中流式传输或以其它方式传输时，这样可能会造成难题。因此，视频数据通常要先压缩，然后通过现代电信网络进行传输。由于内存资源可能有限，当将视频存储在存储设备中时，该视频的大小也可能是一个问题。视频压缩设备通常在信源侧使用软件和/或硬件对视频数据进行译码，然后再传输或存储视频数据，从而减少表示数字视频图片所需的数据量。然后，由对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下，需要改进压缩和解压缩技术，这些改进的技术能够在几乎不影响图像质量的情况下提高压缩比。

3、近年来，深度学习在图像和视频编解码的领域越来越受欢迎。

技术实现思路

1、本专利技术的实施例提供了对潜在张量进行熵编码和解码的装置和方法，该方法包括将潜在张量划分为分块，并且通过神经网络的一个或多个层处理一组元素来获取对潜在张量的当前元素进行熵编码的概率模型。

2、本专利技术的实施例由独立权利要求的特征限定，并且实施例的另外的有利实现方式由从属权利要求的特征限定。

3、根据一个实施例，提供了一种对潜在张量进行熵编码的方法，该

4、对不同分块内的一组共址元素应用卷积核可以实现在这些划分的分块之间共享信息。除了信息共享之外，对每个分块进行的处理可以独立于对其它分块进行的处理。这样可以对多个分块进行并行熵编码。

5、在一种示例性实现方式中，一子组分块形成k×m分块网格，其中，k和m是正整数，k和m中的至少一个大于1；一组元素具有对应于k×m分块网格的维度k×m并且包括在一子组分块内的每个分块中的一个元素，并且该一个元素是当前元素；所述卷积核是二维b×c卷积核，其中，b和c是正整数，b和c中的至少一个大于1。

6、这种形式的卷积核可以实现在一子组分块内(例如，在空间域中)的当前的共址元素之间共享信息，从而提高熵估计的性能。

7、在一种示例性实现方式中，一子组分块形成k×m分块网格，其中，k和m是正整数，k和m中的至少一个大于1；一组元素具有对应于k×m分块网格的维度l×k×m并且包括每个分块中的l个元素，该l个元素包括当前元素以及一个或多个先前已编码的元素，l是大于1的整数；所述卷积核是三维a×b×c卷积核，其中，a是大于1的整数且b和c是正整数，b和c中的至少一个大于1。

8、这种形式的卷积核可以实现在一子组分块内的当前的共址元素和指定数量的先前已编码的共址元素(时域)之间共享信息，从而提高熵估计的性能。

9、例如，该方法还包括：将先前已编码的元素存储在历史存储器中。

10、将先前经编码的元素存储在存储设备中可以改进编码处理和提高编码速度，因为不需要实时整理处理流程。

11、在一种示例性实现方式中，该方法还包括：在进行所述处理之前，通过根据一子组分块内的相应分块位置将共址元素投影到相同的空间平面上，对包括在一子组分块中的一组共址元素中的元素进行重排序。

12、重排序使得卷积等数学运算高效地应用在共址张量元素上。

13、例如，可在神经网络中对卷积核进行训练。

14、经训练的内核可以改进使用所述内核进行卷积的元素的处理过程，从而能够获得更精细的概率模型，实现更高效的编码和/或解码。

15、在一种示例性实现方式中，该方法还包括：将掩码卷积应用于包括在多个分块中的分块中的每个元素，即使用零按编码顺序对所述分块内的当前元素和后续元素进行卷积。

16、应用掩码卷积确保仅处理先前已编码的元素，从而保护译码顺序。掩码卷积将解码侧的信息的可用性镜像到编码侧。

17、例如，该方法还包括：使用获取的概率模型将当前元素熵编码成第一码流。

18、使用通过应用卷积核处理一子组元素获取的概率模型可以减小码流的大小。

19、在一种示例性实现方式中，该方法还包括：将分块尺寸包括到第一码流中。

20、通过将分块尺寸包括到码流中来将分块尺寸通过信号发送到解码侧，使得分块尺寸的选择更加灵活，因为也可以使用除了预定义分块尺寸之外的其它分块尺寸。

21、例如，多个分块内的分块不重叠，并且多个分块中的每个分块具有相同的分块尺寸。

22、相同尺寸的不重叠分块可以实现更高效地处理一组元素。

23、在一种示例性实现方式中，该方法还包括：填充潜在张量，使得潜在张量的新尺寸是所述相同的分块尺寸的倍数，然后将潜在张量划分为多个分块。

24、填充潜在张量使得能够将任何潜在张量划分为相同尺寸的不重叠分块。这使得能够对所有分块进行统一处理，从而实现更容易且更高效的实现方式。

25、例如，使用零填充潜在张量。

26、使用零填充可以提供如下优点，即在处理分块期间，不通过填充后的元素添加额外的信息，因为与零相乘得到的结果是零。

27、在一种示例性实现方式中，该方法还包括：对潜在张量进行量化，然后划分为分块。

28、经量化的潜在张量产生简化的概率模型，从而实现更高效的编码过程。此外，压缩这种潜在张量，可以降低对其进行处理的复杂度，并且可以更高效地将其呈现在码流内。

29、例如，该方法还包括：使用以下各项来选择进行熵编码的概率模型：当前待编码的共址元素的信息，或当前的共址元素的信息以及先前已经编码的共址元素的信息。

30、启用上下文模型构建策略的选择可以在编码过程期间实现更好的性能，并且可以灵活地根据所需应用调整经编码的码流。

31、在一种示例性实现方式中，该方法还包括：根据以下各项来选择概率模型：关于先前经编码的元素的信息和/或穷尽搜索和/或第一码流的特性。

32、根据所提及的选项调整上下文模型构建的选择，可以在码流内产生更高的速率和/或改进编码时间和/或解码时间。

33、例如，该方法还包括：对潜在张量进行超编码，获取超潜在张量；将该超潜在张量熵编码成第二码流；对该第二码流进行熵解码；通过对超潜在张量进行超解码，获取超解码器输出。

34、引入超先验模型还可以通过确定潜在张量中的另外的冗余来进一步改进概率模型，从而提高译码速率。

35、在一种示例性实现方式中，该方法还包括：将超解码器输出划分为多个超解码器输出分块，其中，每个超解码器输出分块本文档来自技高网...

【技术保护点】

1.一种对潜在张量(4020)进行熵编码的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求3中任一项所述的方法，其特征在于，所述方法还包括：将所述先前已编码的元素存储在历史存储器(1060)中。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，可在所述神经网络内对所述卷积核进行训练。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：将所述分块尺寸包括到所述第一码流(371)中。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述多个分块(1110)内的分块不重叠，并且所述多个分块(1110)中的每个分块具有相同的分块尺寸。

11.根据权

12.根据权利要求11所述的方法，其特征在于，所述潜在张量(4020)由零填充。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：对所述潜在张量(4020)进行量化，然后划分为分块(1110)。

14.根据权利要求8至13中任一项所述的方法，其特征在于，所述方法还包括：使用以下各项来选择进行所述熵编码的所述概率模型(1080)：

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：根据以下各项来选择所述概率模型(1080)：

16.根据权利要求1至15中任一项所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述方法还包括：

18.根据权利要求17所述的方法，其特征在于，所述方法还包括：

19.根据权利要求1至18中任一项所述的方法，其特征在于，对所述多个分块(1110)中的每个分块，并行执行以下步骤中的一个或多个步骤：

20.一种对图像数据进行编码的方法，其特征在于，所述方法包括：

21.一种对潜在张量(4020)进行熵解码的方法，其特征在于，所述方法包括：

22.根据权利要求21所述的方法，其特征在于，

23.根据权利要求21所述的方法，其特征在于，

24.根据权利要求23中任一项所述的方法，其特征在于，所述方法还包括：将所述先前已解码元素存储在历史存储器(1060)中。

25.根据权利要求21至24中任一项所述的方法，其特征在于，所述方法还包括：

26.根据权利要求21至25中任一项所述的方法，其特征在于，可在所述神经网络内对所述卷积核进行训练。

27.根据权利要求21至26中任一项所述的方法，其特征在于，所述方法还包括：

28.根据权利要求27所述的方法，其特征在于，所述方法还包括：从所述第一码流(371)提取所述分块尺寸。

29.根据权利要求21至28中任一项所述的方法，其特征在于，所述多个分块(1110)内的分块不重叠，并且所述多个分块(1110)中的每个分块具有相同的分块尺寸。

30.根据权利要求29所述的方法，其特征在于，所述方法还包括：

31.根据权利要求30所述的方法，其特征在于，所述潜在张量(4020)由零填充。

32.根据权利要求27至31中任一项所述的方法，其特征在于，还包括使用以下各项来确定进行所述熵解码的所述概率模型(1080)：

33.根据权利要求32所述的方法，其特征在于，所述方法还包括：根据以下各项来确定所述概率模型(1080)：

34.根据权利要求21至33中任一项所述的方法，其特征在于，所述方法还包括：

35.根据权利要求34所述的方法，其特征在于，所述方法还包括：

36.根据权利要求35所述的方法，其特征在于，所述方法还包括：

37.根据权利要求21至36中任一项所述的方法，其特征在于，针对所述多个分块(1110)中的每个分块，并行执行以下步骤中的一个或多个步骤：

38.一种用于对图像数据进行解码的方法，其特征在于，所述方法包括：

39.一种计算机程序，其特征在于，所述计算机程序存储在非瞬时性介质上并且包括代码指令，当在一个或多个处理器上执行时，所述代...

【技术特征摘要】
【国外来华专利技术】