熵约束神经视频表示制造技术

技术编号：41304765 阅读：2 留言：0更新日期：2024-05-13 14:50

一种包括神经网络(NN)的系统，其具有矩阵扩展块，配置用于构建输入序列的矩阵表示；分量合并块，配置用于将矩阵表示与网格合并；编码器，配置用于接收分量合并块的输出；卷积级，配置用于使用编码器的输出生成与输入序列相对应的输出的多分量表示；以及卷积放大级，配置用于使用输出的多分量表示生成与输入序列相对应的输出序列。一种由系统使用的方法，其包括接收输入序列，对输入序列建模以生成输入序列的神经网络表示，压缩神经网络表示以生成压缩的神经网络表示，以及从压缩的神经网络表示生成与输入序列相对应的压缩的输出序列。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及神经视频表示领域，具体地，涉及一种包括神经网络(nn)的系统和一种用于包括硬件处理器和神经网络(nn)的系统的方法。

技术介绍

1、视频压缩是一个长期存在的难题，激发了大量研究。视频压缩的主要目标是用最少的存储需求来表示数字视频，同时将质量损失降到最低。尽管传统视频编解码器在过去几十年中取得了许多进步，但深度学习的出现激发了基于神经网络的方法，使新形式的视频处理成为可能。

2、然而，对于有损视频压缩任务而言，传统技术通常仍然优于现有的神经视频表示(nvr)方法。造成这种表现差距的原因是，目前的nvr方法：i)使用的架构不能有效地获得时间和空间输入坐标的紧凑表示；ii)通过首先在视频上过度拟合网络，然后使用启发式技术(如后训练量化或权重剪枝)来压缩模型，从而最大限度地分别降低速率和失真。

技术实现思路

1、本申请公开了生成熵约束神经视频表示的系统和方法，解决并克服了传统技术中的不足。本专利技术解决上述技术问题的技术方案如下：

2、一种系统，其包括：

3、矩阵扩展块，其用于构建输入序列的矩阵表示；

4、分量合并块，其用于将矩阵表示与网格合并；

5、编码器，其用于接收分量合并块的输出；

6、卷积级，其配置为使用编码器的输出，生成对应于输入序列的输出的多分量表示；以及

7、卷积放大级，其配置为使用输出的多分量表示，生成对应于输入序列的输出序列。

8、一种用于包括硬件处理器和神经网络(n

9、由硬件处理器控制的nn接收输入序列；

10、由硬件处理器控制的nn对输入序列进行建模，以生成输入序列的神经网络表示；

11、由硬件处理器控制的nn压缩输入序列的神经网络表示，以生成输入序列的压缩的神经网络表示；以及

12、由硬件处理器控制的nn从压缩的神经网络表示中生成与输入序列相对应的压缩的输出序列。

13、一种用于包括硬件处理器和神经网络(nn)的系统的方法，所述方法包括：

14、由硬件处理器控制的nn接收视频序列的帧索引；

15、由硬件处理器控制的nn构建视频序列的矩阵表示；

16、由硬件处理器控制的nn将矩阵表示与固定坐标网格合并，以提供空间-时间数据结构；

17、由硬件处理器控制的nn使用nn的第一卷积神经网络(cnn)和空间-时间数据结构，生成对应于视频序列的输出的空间-时间表示；以及

18、由硬件处理器控制的nn对输出的时空表示进行放大并使用nn的第二cnn，以生成与视频序列相对应的输出序列。

本文档来自技高网...

【技术保护点】

1.一种系统，其包括：

2.根据权利要求1所述的系统，其中与输入序列的矩阵表示相比，对应于输入序列的输出的多分量表示被压缩。

3.根据权利要求1所述的系统，其中输入序列和输出序列包括视频序列。

4.根据权利要求1所述的系统，其中网格包括固定的坐标网格。

5.根据权利要求1所述的系统，其中编码器包括位置编码器。

6.根据权利要求1所述的系统，其中卷积级包括空间-时间卷积级。

7.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括输出的空间-时间表示。

8.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括多视图表示。

9.根据权利要求1所述的系统，其中卷积放大级包括多个放大块，每个放大块都包含自适应实例归一化(AdaIN)模块。

10.根据权利要求9所述的系统，其中多个放大块中的每个进一步包括多层感知器。

11.一种用于包括硬件处理器和神经网络(NN)的系统的方法，所述方法包括：

12.根据权利要求11所述的方法，其中输

13.根据权利要求12所述的方法，其中输入序列的神经网络表示使用熵编码进行压缩。

14.根据权利要求11所述的方法，其中所述NN包括一个或多个卷积神经网络(CNN)。

15.根据权利要求14所述的方法，其中压缩输入序列的神经网络表示以生成输入序列的压缩的神经网络表示是由一个或多个CNN中的第一CNN执行的。

16.根据权利要求15所述的方法，其中由一个或多个CNN中的第二CNN从压缩的神经网络表示生成与输入序列相对应的压缩的输出序列。

17.一种用于包括硬件处理器和神经网络(NN)的系统的方法，所述方法包括：

18.根据权利要求17所述的方法，其中与空间-时间数据结构相比，与视频序列相对应的输出的空间-时间表示被压缩。

19.根据权利要求18所述的方法，其中对应于视频序列的输出的空间-时间表示使用熵编码进行压缩。

20.根据权利要求17所述的方法，其还包括：

...

【技术特征摘要】

1.一种系统，其包括：

2.根据权利要求1所述的系统，其中与输入序列的矩阵表示相比，对应于输入序列的输出的多分量表示被压缩。

3.根据权利要求1所述的系统，其中输入序列和输出序列包括视频序列。

4.根据权利要求1所述的系统，其中网格包括固定的坐标网格。

5.根据权利要求1所述的系统，其中编码器包括位置编码器。

6.根据权利要求1所述的系统，其中卷积级包括空间-时间卷积级。

7.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括输出的空间-时间表示。

8.根据权利要求1所述的系统，其中对应于输入序列的输出的多分量表示包括多视图表示。

9.根据权利要求1所述的系统，其中卷积放大级包括多个放大块，每个放大块都包含自适应实例归一化(adain)模块。

10.根据权利要求9所述的系统，其中多个放大块中的每个进一步包括多层感知器。

11.一种用于包括硬件处理器和神经网络(nn)的系统的方法，所述方法包括：

【专利技术属性】
技术研发人员：R·G·D·A·阿泽维多，C·M·P·V·戈梅斯，C·R·施罗尔斯，
申请(专利权)人：迪士尼企业公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人