用于输入图像数据处理神经网络的辅助信息的可配置位置制造技术

技术编号：40159109 阅读：7 留言：0更新日期：2024-01-26 23:33

本申请提供了用于使用具有两个或两个以上层的神经网络处理图像数据或图像特征数据的方法和装置。本发明专利技术可应用于基于人工智能(artificial intelligence，AI)的视频或图像压缩技术领域，尤其应用于基于神经网络的视频压缩技术领域。根据一些实施例，所述神经网络内可以输入辅助信息进行处理的位置是可以基于收集条件选择的。所述收集条件可以评估是否满足了一些前提条件。一些优点可以包括：由于神经网络可配置性更加灵活，在速率和/或公开方面的性能得到提高。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、视频译码(视频编码和解码)广泛用于数字视频应用，例如广播数字电视、基于互联网和移动网络的视频传输、视频聊天和视频会议等实时会话应用、dvd和蓝光光盘、视频内容采集和编辑系统以及安全应用的可携式摄像机。

2、即使视频相对较短，也需要大量的视频数据来描述，当数据要在带宽容量有限的通信网络中流式传输或以其它方式传输时，这样可能会造成困难。因此，视频数据通常要先压缩，然后通过现代电信网络进行传输。由于内存资源可能有限，当在存储设备中存储视频时，该视频的大小也可能是一个问题。视频压缩设备通常在源侧使用软件和/或硬件对视频数据进行编码，然后进行传输或存储，从而减少表示数字视频图像所需的数据量。然后，对视频数据进行解码的视频解压缩设备在目的地侧接收压缩数据。在网络资源有限以及对更高视频质量的需求不断增长的情况下，需要改进压缩和解压缩技术，这些改进的技术能够在几乎不影响图像质量的情况下提高压缩比。

3、近年来，深度学习在图像和视频编解码领域越来越受欢迎。

技术实现思路

1、本申请提供了方法和装置，这些方法和装置可以提高神经网络的可配置性，从而实现更高的效率。

2、上述和其它目的是通过由独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中是显而易见的。

3、特定实施例在所附独立权利要求中概述，其它实施例在从属权利要求中概述。

4、根据第一方面，本专利技术涉及一种用于使用包括多个神经网络层的神经网络处理

5、预配置位置是神经网络中可以收集辅助信息的位置。在上述确定步骤中确定实际上在特定的预配置位置处的所述辅助信息是否被收集。术语“位置”是指神经网络中的节点。节点对应于输入到层(或层的块或模块，取决于神经网络的架构)和/或从层输出的特征张量。具体地，它可以由处理方向上在该位置之前的神经网络层的数量指定。

6、辅助信息是与添加到神经网络中的图像数据或图像特征数据相关的任何信息。这样的信息可以输入到神经网络，以进一步改进处理。在下面的示例性实现方式中提供了辅助信息的一些特定示例。

7、收集条件是为了将辅助数据输入到特定的预配置位置而需要满足的条件或前提条件。收集条件可以包括将一些图像特性或图像特征特性与阈值进行比较，以确定是否收集特定位置的辅助信息。图像特性或图像特征特性可以为编码器和解码器已知，从而不需要额外的指示。或者或另外，收集条件可以由编码端配置，方式是通过设置是否为预配置位置收集辅助信息的指示符。指示符可以在解码端可用的码流中提供。

8、配置向神经网络输入辅助信息的位置具有更高的灵活性，并可以动态地改变神经网络架构。这种灵活性可以基于收集条件实现更好的适应性，并实现更高效的编码和/或解码。

9、在一种可能的实现方式中，作为在所述确定中应用所述收集条件的结果，所述一个或多个预配置位置中的单个预配置位置处的所述辅助数据待被收集。

10、这种实现方式提供了与针对特定辅助信息选择神经网络中待收集辅助信息的位置类似的效果。这使得能够向根据一些标准可能是最合适的位置提供辅助，例如可以包括处理时间或复杂度和/或速率或失真的编码效率。

11、在一种可能的替代实现方式中，作为在所述确定中应用所述收集条件的结果，所述预配置位置中的多于一个预配置位置处的所述辅助数据待被收集。

12、替代上述实现方式的这种实现方式可以确保辅助信息在可以从中受益的任何层上可用。它可以进一步增加网络的可配置性，从而提高网络的灵活性。

13、在一种可能的实现方式中，存在多于一个所述预配置位置(所述处理是针对两个或两个以上预配置位置执行的)；所述辅助数据的大小是可缩放的，以匹配在所述预配置位置中的两个或两个以上预配置位置由所述层处理的输入通道的尺寸；作为在所述确定中应用所述收集条件的结果，所述预配置位置中的单个预配置位置(i)处的所述辅助数据待被收集或(ii)被收集并且被缩放。

14、因此，辅助数据可以被适当地缩放，以使其能够与特征数据组合。这种缩放使得能够提供可能来自不同级或源的各种辅助信息。

15、在一种可能的实现方式中，所述收集条件基于从所述码流获得的图像特性或图像特征数据特性。

16、该实现方式实现了神经网络的内容适应性，并可以提高神经网络执行的编码或解码或其它处理的性能。

17、在一种可能的实现方式中，所述图像特性或所述图像特征数据特性包括分辨率；所述收集条件包括所述分辨率与预配置分辨率阈值的比较。

18、分辨率是合适的决策依据，因为它影响详细特征的水平，当进一步下采样或以其它方式进行有损处理时，这些特征可能会导致质量下降。

19、在一种可能的实现方式中，所述图像是视频图像，所述图像特性包括图像类型；所述收集条件包括确定所述图像类型是时间预测的图像类型还是空间预测的图像类型。

20、图像类型是合适的决策依据，因为它影响预测的质量。此外，期望以更高质量编码帧内图像，因为它也可能影响帧内图像，该帧内图像通常利用帧内编码图像作为时间预测的参考。

21、根据一个示例性实现方式，所述方法还包括：从所述码流获得指定对于所述一个或多个预配置位置是否收集所述辅助数据的指示，对于所述一个或多个预配置位置中的每个预配置位置的所述收集条件如下：如果所述指示指定对于所述预配置位置所述辅助数据待被收集，则所述确定是肯定的；如果所述指示指定对于所述预配置位置所述辅助数据不被收集，则所述确定是否定的。

22、一个或多个收集位置的显式指示进一步增加了可配置性，并能够更紧密地适应图像的内容，即使预定义的一个或多个收集条件可能无法捕获它。

23、在一种可能的实现方式中，所述辅助数据提供关于由所述神经网络处理以生成输出的所述图像特征数据的信息。

24、提供关于图像特征数据的附加信息可以改进重建处理和/或其它类型的处理。基于处理类型，不同的辅助信息可能是相关的并且可以被应用。

25、在一种可能的实现方式中，所述辅助数据包括预测数据，所述预测数据是所述图像的预测或在由所述神经网络的所述层中的一个或多个层进行处理之后图像特征数据的预测。

26、运动图像(视频)译码效率在很大程度上可以取决于从相邻图像中去除时间相关性。因此，提供或预测数据或预测误差数据可以改进神经网络处理。

27、在一种可能的实现方式中，所述辅助数据是所述预测数据和将与所述预测数据组合的补充数据本文档来自技高网...

【技术保护点】

1.一种用于使用包括多个神经网络层的神经网络(900B)处理码流(940)中的图像特征数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，作为在所述确定中应用所述收集条件(910_1、910_2、910_3)的结果，所述一个或多个预配置位置中的单个预配置位置处的所述辅助数据(950)待被收集(960_1、960_2、960_3)。

3.根据权利要求1所述的方法，其特征在于，作为在所述确定中应用所述收集条件(910_1、910_2、910_3)的结果，所述预配置位置中的多于一个预配置位置处的所述辅助数据(950)待被收集(960_1、960_2、960_3)。

4.根据权利要求1至3中任一项所述的方法，其特征在于，

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述收集条件(910_1、910_2、910_3)基于从所述码流(940)获得的图像特性或图像特征数据特性。

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求5或6所述的方法，其特征在于，

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述辅助数据(950)提供关于由所述神经网络处理以生成输出的所述图像特征数据的信息。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述辅助数据包括预测数据，所述预测数据是所述图像的预测或在由所述神经网络的所述层中的一个或多个层进行处理之后图像特征数据的预测。

11.根据权利要求10所述的方法，其特征在于，所述辅助数据是所述预测数据(1110)和将与所述预测数据组合的补充数据(1120)的耦合对。

12.根据权利要求11所述的方法，其特征在于，所述预测数据和所述补充数据具有由所述神经网络中相互不同位置的层处理的数据的尺寸。

13.根据权利要求1至9中任一项所述的方法，其特征在于，

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述神经网络(900B)被训练以执行以下各项中的至少一项：静止图像解码、视频图像解码、静止图像滤波、视频图像滤波和包括对象检测、对象识别或对象分类的机器视觉处理。

15.根据权利要求1至14中任一项所述的方法，其特征在于，所述方法是针对包括第一辅助数据(950)和第二辅助数据(1350)的多个辅助数据(950、1350)中的每个辅助数据执行的，

16.根据权利要求15所述的方法，其特征在于，所述第一组一个或多个预配置位置和所述第二组一个或多个预配置位置共享至少一个预配置位置。

17.根据权利要求1至16中任一项所述的方法，其特征在于，

18.一种用于使用包括多个神经网络层的神经网络(900A)处理图像(902)以生成码流(940)的方法，其特征在于，所述方法包括：

19.根据权利要求18所述的方法，其特征在于，作为在所述确定中应用所述收集条件(910_1、910_2、910_3)的结果，所述一个或多个预配置位置中的单个预配置位置处的所述辅助数据(950)待被收集(920_1、920_2、920_3)。

20.根据权利要求18所述的方法，其特征在于，作为在所述确定中应用所述收集条件(910_1、910_2、910_3)的结果，所述预配置位置中的多于一个预配置位置处的所述辅助数据待被收集(920_1、920_2、920_3)。

21.根据权利要求18至20中任一项所述的方法，其特征在于，

22.根据权利要求18至21中任一项所述的方法，其特征在于，所述收集条件(910_1、910_2、910_3)基于包括到所述码流(940)中的图像特性或图像特征数据特性。

23.根据权利要求22所述的方法，其特征在于，

24.根据权利要求22或23所述的方法，其特征在于，

25.根据权利要求18至21中任一项所述的方法，其特征在于，还包括：

26.根据权利要求25所述的方法，其特征在于，还包括基于包括速率、失真、精度或复杂度中的至少一个的成本函数的优化，为所述一个或多个预配置位置选择是否收集(920_1、920_2、920_3)所述辅助数据(950)的步骤。

27.根据权利要求18至26中任一项所述的方法，其特征在于，所述辅助数据(950)提供关于由所述神经网络(900A)处理以生成输出的所述图像特征数据的信息。

28.根据权利要求18至27中任一项所述的方法，其特征在于，...

【技术特征摘要】
【国外来华专利技术】

1.一种用于使用包括多个神经网络层的神经网络(900b)处理码流(940)中的图像特征数据的方法，其特征在于，所述方法包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述收集条件(910_1、910_2、910_3)基于从所述码流(940)获得的图像特性或图像特征数据特性。

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求5或6所述的方法，其特征在于，

8.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述辅助数据(950)提供关于由所述神经网络处理以生成输出的所述图像特征数据的信息。

11.根据权利要求10所述的方法，其特征在于，所述辅助数据是所述预测数据(1110)和将与所述预测数据组合的补充数据(1120)的耦合对。

12.根据权利要求11所述的方法，其特征在于，所述预测数据和所述补充数据具有由所述神经网络中相互不同位置的层处理的数据的尺寸。

13.根据权利要求1至9中任一项所述的方法，其特征在于，

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述神经网络(900b)被训练以执行以下各项中的至少一项：静止图像解码、视频图像解码、静止图像滤波、视频图像滤波和包括对象检测、对象识别或对象分类的机器视觉处理。

16.根据权利要求15所述的方法，其特征在于，所述第一组一个或多个预配置位置和所述第二组一个或多个预配置位置共享至少一个预配置位置。

17.根据权利要求1至16中任一项所述的方法，其特征在于，

18.一种用于使用包括多个神经网络层的神经网络(900a)处理图像(902)以生成码流(940)的方法，其特征在于，所述方法包括：

20.根据权利要求18所述...

【专利技术属性】
技术研发人员：蒂莫菲·米哈伊洛维奇·索洛维耶夫，王彪，伊蕾娜·亚历山德罗夫娜·阿尔希娜，高晗，贾攀琦，艾辛·科云朱，亚历山大·亚历山德罗维奇·卡拉布托夫，米哈伊尔·维亚切斯拉沃维奇·索苏尔尼科夫，塞米赫·艾森力克，谢尔盖·尤里耶维奇·伊科宁，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人