多维数据的端到端特征压缩编码的系统和方法技术方案

技术编号：41003630 阅读：10 留言：0更新日期：2024-04-18 21:41

本发明专利技术提供了一种设备，该设备可被配置为根据本文所述技术中的一种或多种技术来压缩特征数据。在一个示例中，可通过使用残差编码以通过移除冗余来增强特征数据从而压缩该特征数据。可对增强特征数据进行空间下采样，并且可通过应用2D卷积运算来减小该增强特征数据的通道数量。可生成基于减小的增强特征数据的热图。可使用所生成的热图来缩放该减小的增强特征数据。可对经缩放的减小的增强特征数据进行熵编码以生成比特流。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及对多维数据进行编码，并且更具体地涉及用于在端到端网络中压缩特征数据的技术。

技术介绍

1、数字视频和音频功能可结合到各种设备中，包括数字电视、计算机、数字录音设备、数字媒体播放器、视频游戏设备、智能电话、医学成像设备、监视系统、跟踪和监控系统等。数字视频和音频可表示为阵列的集合。表示为一组阵列的数据可称为多维数据。例如，数字视频中的图片可表示为采样值二维阵列的集合。即，例如，视频分辨率提供采样值阵列的宽度和高度维度，并且颜色空间的每个分量提供集合中二维阵列的数量。此外，数字视频序列中图片的数量提供另一个数据维度。例如，具有三个颜色分量的1080p分辨率的一秒60hz视频可以对应于数据值的四个维度，即，采样的数量可表示如下：1920×1080×3×60。因此，数字视频和图像是多维数据的示例。应当指出的是，可使用附加和/或另选维度(例如，层数量、视图/通道数量等)来表示数字视频。

2、可以根据视频编码标准对数字视频进行编码。视频编码标准定义了封装编码视频数据的兼容比特流的格式。兼容比特流是可以由视频解码设备接收和解码以生成重构视频数据的数据结构。通常，重构视频数据旨在供人类消费(即，在显示器上观看)。视频编码标准的示例包括iso/iec mpeg-4visual和itu-t h.264(也被称为iso/iec mpeg-4avc)和高效视频编码(hevc)。hevc在2016年12月的itu-t h.265建议书的高效视频编码(hevc)中有所描述，该文献以引用方式并入本文，并且在本文中被称为itu-t h.2

3、视频编码标准可利用视频压缩技术。视频压缩技术通过利用视频序列中固有的冗余来减少用于存储和/或传输视频数据的数据需求。视频压缩技术通常将视频序列细分为更小的连续部分(即，视频序列内的图片组、图片组内的图片、图片内的区域、区域内的子区域等)并且利用帧内预测编码技术(例如，图片内的空间预测技术)和帧间预测技术(即，图片间技术(时间))来生成待编码的视频数据单元与参考视频数据单元之间的差值。该差值可以被称为残差数据。语法元素可以涉及残差数据和参考编码单元(例如，帧内预测模式索引和运动信息)。可以对残差数据和语法元素进行熵编码。熵编码的残差数据和语法元素可以包括在形成兼容比特流的数据结构中。

技术实现思路

1、一般来讲，本公开描述了用于编码多维数据的各种技术，该多维数据可称为多维数据集(mdds)并且可包括(例如)视频数据、音频数据等。应当指出的是，除了减少提供供人类消费的多维数据的数据要求之外，本文所述的用于对多维数据进行编码的技术可用于其他应用。例如，本文所述的技术可用于所谓的机器消费。即，例如，在监视的情况下，在中央服务器上运行的监控应用程序能够从多个视频馈送中的任一个视频馈送快速地识别和跟踪对象可能是有用的。在这种情况下，编码视频数据不需要必须能够被重构为人类可消费形式，而仅需要能够使得对象能够被识别。对象检测是所谓的机器任务的示例。如下文进一步详细描述的，对象检测、分割和/或跟踪(即，对象辨识任务)通常涉及接收图像(例如，单个图像或视频序列中包括的图像)、生成对应于该图像的特征数据、分析该特征数据以及生成推断数据，其中该推断数据可指示对象的类型和对象在该图像内的空间位置。对象在图像内的空间位置可由具有空间坐标(例如，x、y)和尺寸(例如，高度和宽度)的边界框指定。本公开描述了用于压缩特征数据的技术。具体地讲，本公开描述了用于形成端到端特征压缩网络的技术。本公开中描述的技术对于允许跨通信网络分发机器任务特别有用。例如，在一些应用中，获取设备(例如，摄像机和附随硬件)可具有功率和/或计算约束。在这种情况下，特征数据的生成可针对获取设备处的能力进行优化，但分析和推断可更适于在跨网络分发的具有附加能力的一个或多个设备处执行。在这种情况下，特征集合的压缩可促进对象辨识任务的有效分发(例如，减少的带宽和/或延迟)。应当指出的是，如下文进一步详细描述的，推断数据(例如，对象在图像内的空间位置)可用于优化视频数据的编码(例如，调整编码参数以改进其中存在感兴趣对象的区域中的相对图像质量等)。此外，利用推断数据的视频编码设备可位于与获取设备不同的位置处。例如，分发网络可包括执行获取视频的压缩和分发的多个分发服务器(在各种物理位置处)。

2、应当指出的是，如本文中所使用，术语“典型视频编码标准”或“典型视频编码”可指利用以下视频压缩技术中的一种或多种技术的视频编码标准：视频划分技术、帧内预测技术、帧间预测技术、残差变换技术、重构视频滤波技术及/或用于残差数据和语法元素的熵编码技术。例如，术语“典型视频编码标准”可指itu-t h.264、itu-t h.265、vvc等中的任一者，单独地或共同地。此外，应当指出的是，将文献以引用方式并入本文是出于描述性目的，并且不应被解释为限制或产生关于本文所用术语的歧义。例如，在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文所用的该术语的情况下，则该术语应以广泛地包括每个相应定义的方式和/或以包括替代方案中每个特定定义的方式来解释。

3、在一个示例中，一种压缩特征数据的方法包括：接收特征数据；对所接收的特征数据执行残差编码以生成增强特征数据；对增强特征数据应用二维卷积运算以生成减小特征数据，其中减小特征数据关于空间和通道维度减小；基于减小特征数据来生成热图；使用所生成的热图来缩放减小特征数据；以及对经缩放的减小特征数据进行熵编码以生成比特流。

4、在一个示例中，一种设备包括一个或多个处理器，该一个或多个处理器被配置为：接收特征数据；对所接收的特征数据执行残差编码以生成增强特征数据；对增强特征数据应用二维卷积运算以生成减小特征数据，其中减小特征数据关于空间和通道维度减小；基于减小特征数据来生成热图；使用所生成的热图来缩放减小特征数据；以及对经缩放的减小特征数据进行熵编码以生成比特流。

5、在一个示例中，一种非暂态计算机可读存储介质包括存储在其上的指令，这些指令在被执行时使得设备的一个或多个处理器：对所接收的特征数据执行残差编码以生成增强特征数据；对增强特征数据应用二维卷积运算以生成减小特征数据，其中减小特征数据关于空间和通道维度减小；基于减小特征数据来生成热图；使用所生成的热图来缩放减小特征数据；以及对经缩放的减小特征数据进行熵编码以生成比特流。

6、在一个示例中本文档来自技高网...

【技术保护点】

1.一种压缩特征数据的方法，所述方法包括：

2.一种包括一个或多个处理器的设备，所述一个或多个处理器被配置为：

3.根据权利要求2所述的设备，其中所接收的特征数据对应于根据Detectron2生成的特征数据。

4.根据权利要求3所述的设备，其中所接收的特征数据包括根据Detectron2生成的关于通道维度级联的多尺度特征数据。

5.根据权利要求2所述的设备，其中使用所生成的热图来缩放所述减小特征数据包括使用单个所生成的热图来缩放每个通道。

【技术特征摘要】

1.一种压缩特征数据的方法，所述方法包括：

2.一种包括一个或多个处理器的设备，所述一个或多个处理器被配置为：

3.根据权利要求2所述的设备，其中所接收的特征数据对应于根据detectron2生成的特征数据。

...

【专利技术属性】
技术研发人员：计天颖，萨钦·G·德施潘德，
申请(专利权)人：夏普株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人