使用机器学习系统的隐式图像和视频压缩技术方案

技术编号：40667971 阅读：7 留言：0更新日期：2024-03-18 19:03

描述了用于使用机器学习系统来对数据进行压缩和解压缩的技术。示例过程可包括接收用于由神经网络压缩系统进行压缩的多个图像。该过程可包括基于来自该多个图像中的第一图像来确定与该神经网络压缩系统的第一模型相关联的第一多个权重值。该过程可包括生成包括第一多个权重值的经压缩版本的第一比特流。该过程可包括输出第一比特流以供传输至接收方。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开一般涉及数据压缩。例如，本公开的各方面包括使用机器学习系统来对图像和/或视频内容进行压缩。

技术介绍

1、许多设备和系统允许对媒体数据(例如，图像数据、视频数据、音频数据等)进行处理和输出以供消费。媒体数据包括大量数据以满足图像/视频/音频质量、性能和特征方面不断增长的需求。例如，视频数据的消费者通常期望具有高保真度、分辨率、帧率等的高质量视频。往往需要大量视频数据来满足这些需求，这给通信网络以及处理和存储视频数据的设备带来了巨大的负担。视频译码技术可被用于压缩视频数据。视频译码的一个示例目的是将视频数据压缩成使用较低比特率的形式，同时避免或最小化视频质量的降级。随着不断演进的视频服务变得可用以及对海量视频数据的需求不断增加，需要性能和效率更佳的译码技术。

技术实现思路

0、概述

1、在一些示例中，描述了用于使用一个或多个机器学习系统来进行数据压缩和/或解压缩的系统和技术。在一些示例中，提供了用于对媒体数据(例如，视频数据、图像数据、音频数据等)进行压缩和/或解压缩的机器学习系统(例如，其使用一个或多个神经网络系统)。根据至少一个解说性示例，提供了一种处理图像数据的方法。该方法可包括：接收用于由神经网络压缩系统进行压缩的多个图像；基于来自该多个图像中的第一图像来确定与该神经网络压缩系统的第一模型相关联的第一多个权重值；生成包括第一多个权重值的经压缩版本的第一比特流；以及输出第一比特流以供传输至接收方。

2、在另一示例中，提供了一种用于处理媒体数据的装置

3、在另一示例中，提供了一种包括存储在其上的至少一条指令的非瞬态计算机可读介质，该至少一条指令在由一个或多个处理器执行时可使该一个或多个处理器：接收用于由神经网络压缩系统进行压缩的多个图像；基于来自该多个图像中的第一图像来确定与该神经网络压缩系统的第一模型相关联的第一多个权重值；生成包括第一多个权重值的经压缩版本的第一比特流；以及输出第一比特流以供传输至接收方。

4、在另一示例中，提供了一种用于处理图像数据的设备。该设备可包括：用于接收用于由神经网络压缩系统进行压缩的输入数据的装置；用于接收用于由神经网络压缩系统进行压缩的多个图像的装置；用于基于来自该多个图像中的第一图像来确定与该神经网络压缩系统的第一模型相关联的第一多个权重值的装置；用于生成包括第一多个权重值的经压缩版本的第一比特流的装置；以及用于输出第一比特流以供传输至接收方的装置。

5、在另一示例中，提供了一种用于处理媒体数据的方法。该方法可包括：接收与来自多个图像中的第一图像相关联的第一多个神经网络权重值的经压缩版本；对第一多个神经网络权重值进行解压缩；以及使用第一神经网络模型来处理第一多个神经网络权重值，以产生第一图像。

6、在另一示例中，提供了一种用于处理图像数据的装置，该装置包括至少一个存储器和通信地耦合到该至少一个存储器的至少一个处理器(例如，配置在电路系统中)。该至少一个处理器可被配置成：接收与来自多个图像中的第一图像相关联的第一多个神经网络权重值的经压缩版本；对第一多个神经网络权重值进行解压缩；以及使用第一神经网络模型来处理第一多个神经网络权重值，以产生第一图像。

7、在另一示例中，提供了一种包括存储在其上的至少一条指令的非瞬态计算机可读介质，该至少一条指令在由一个或多个处理器执行时可使该一个或多个处理器：接收与来自多个图像中的第一图像相关联的第一多个神经网络权重值的经压缩版本；对第一多个神经网络权重值进行解压缩；以及使用第一神经网络模型来处理第一多个神经网络权重值，以产生第一图像。

8、在另一示例中，提供了一种用于处理图像数据的设备。该设备可包括：用于接收与来自多个图像中的第一图像相关联的第一多个神经网络权重值的经压缩版本的装置；用于对第一多个神经网络权重值进行解压缩的装置；以及用于使用第一神经网络模型来处理第一多个神经网络权重值，以产生第一图像的装置。

9、在一些方面，一装置(设备)可以是相机(例如，ip相机)、移动设备(例如，移动电话或所谓的“智能电话”、或其他移动设备)、智能可穿戴设备、扩展现实设备(例如，虚拟现实(vr)设备、增强现实(ar)设备、或混合现实(mr)设备)、个人计算机、膝上型计算机、服务器计算机、3d扫描器、多相机系统或其他设备，或者是其一部分。在一些方面，该装置(设备)包括用于捕获一个或多个图像的一个或多个相机。在一些方面，该装置(设备)进一步包括用于显示一个或多个图像、通知和/或其他可显示数据的显示器。在一些方面，上述装置可以包括一个或多个传感器。

10、本概述既非旨在标识出要求保护的主题内容的关键特征或必要特征，亦非旨在单独用于确定要求保护的主题内容的范围。本主题内容应当参考本专利的整个说明书的合适部分、任何或所有附图、以及每项权利要求来理解。

11、前述内容以及其他特征和实施例将在参考以下说明书、权利要求书和所附附图时变得更明显。

本文档来自技高网...

【技术保护点】

1.一种处理媒体数据的方法，包括：

2.如权利要求1所述的方法，其中所述第一模型的至少一层包括与所述第一图像相关联的多个坐标的定位编码。

3.如权利要求2所述的方法，其中所述第一模型被配置成确定与关联于所述第一图像的所述多个坐标相对应的一个或多个像素值。

4.如权利要求1所述的方法，进一步包括：

5.如权利要求4所述的方法，其中所述第二模型被配置成确定所述第一图像和所述第二图像之间的光流。

6.如权利要求5所述的方法，进一步包括：

7.如权利要求1所述的方法，进一步包括：

8.如权利要求7所述的方法，其中所述权重先验被选择为使与向所述接收方发送所述第一比特流相关联的速率损失最小化。

9.如权利要求7所述的方法，其中生成所述第一比特流包括：

10.如权利要求7所述的方法，其中所述第一多个权重值是使用定点量化来量化的。

11.如权利要求10所述的方法，其中所述定点量化是使用机器学习算法来实现的。

12.如权利要求1所述的方法，进一步包括：

14.如权利要求12所述的方法，其中选择所述模型架构包括：

15.如权利要求14所述的方法，其中所述一个或多个模型特性包括以下至少一者：宽度、深度、分辨率、卷积内核的大小、以及输入维度。

16.一种装置，包括：

17.如权利要求16所述的装置，其中所述第一模型的至少一层包括与所述第一图像相关联的多个坐标的定位编码。

18.如权利要求17所述的装置，其中所述第一模型被配置成确定与关联于所述第一图像的所述多个坐标相对应的一个或多个像素值。

19.如权利要求16所述的装置，其中所述至少一个处理器被进一步配置成：

20.如权利要求19所述的装置，其中所述第二模型被配置成确定所述第一图像和所述第二图像之间的光流。

21.如权利要求20所述的装置，其中所述至少一个处理器被进一步配置成：

22.如权利要求16所述的装置，其中所述至少一个处理器被进一步配置成：

23.如权利要求22所述的装置，其中所述权重先验被选择为使与向所述接收方发送所述第一比特流相关联的速率损失最小化。

24.如权利要求22所述的装置，其中为了生成所述第一比特流，所述至少一个处理器被进一步配置成：

25.如权利要求22所述的装置，其中所述第一多个权重值是使用定点量化来量化的。

26.如权利要求25所述的装置，其中所述定点量化是使用机器学习算法来实现的。

27.如权利要求16所述的装置，其中所述至少一个处理器被进一步配置成：

28.如权利要求27所述的装置，其中所述至少一个处理器被进一步配置成：

29.如权利要求27所述的装置，其中为了选择所述模型架构，所述至少一个处理器被进一步配置成：

30.如权利要求29所述的装置，其中所述一个或多个模型特性包括以下至少一者：宽度、深度、分辨率、卷积内核的大小、以及输入维度。

31.一种用于处理媒体数据的方法，包括：

32.如权利要求31所述的方法，进一步包括：

33.如权利要求32所述的方法，进一步包括：

34.如权利要求33所述的方法，进一步包括：

35.如权利要求31所述的方法，其中所述第一多个神经网络权重值是在权重先验下量化的。

36.如权利要求31所述的方法，其中所述第一多个神经网络权重值的所述经压缩版本是在经熵编码的比特流中接收的。

37.如权利要求31所述的方法，进一步包括：

38.一种装置，包括：

39.如权利要求38所述的装置，其中所述至少一个处理器被进一步配置成：

40.如权利要求39所述的装置，其中所述至少一个处理器被进一步配置成：

41.如权利要求40所述的装置，其中所述至少一个处理器被进一步配置成：

42.如权利要求38所述的装置，其中所述第一多个神经网络权重值是在权重先验下量化的。

43.如权利要求38所述的装置，其中所述第一多个神经网络权重值的所述经压缩版本是在经熵编码的比特流中接收的。

44.如权利要求38所述的装置，其中所述至少一个处理器被进一步配置成：

...

【技术特征摘要】
【国外来华专利技术】