局部熵编码的数据压缩制造技术

技术编号:25811701 阅读:64 留言:0更新日期:2020-09-29 18:47
用于压缩和解压缩数据的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,编码器神经网络处理数据以生成输出,该输出包括作为代码符号的有序集合的数据的表示。使用一个或多个代码符号概率分布对代码符号的有序集合进行熵编码。基于代码符号的集合的熵编码表示和指示用于对代码符号的集合进行熵编码的代码符号概率分布的数据,确定数据的压缩表示。在另一方面,数据的压缩表示被解码以确定表示数据的代码符号的集合。通过解码器神经网络处理代码符号的集合来确定数据的重建。

【技术实现步骤摘要】
【国外来华专利技术】局部熵编码的数据压缩
本说明书涉及数据压缩。
技术介绍
压缩数据是指确定在存储器中占据较少空间的数据的表示。压缩数据可以被存储(例如,在逻辑数据存储区域或物理数据存储设备中),通过通信网络(例如,互联网)被传输到目的地,或者以任何其他方式被使用。通常,数据可以从数据的压缩表示被(近似地或精确地)重建。
技术实现思路
本说明书描述了在一个或多个位置的一个或多个计算机上实现为计算机程序的系统,该系统执行数据压缩和数据解压缩。根据第一方面,提供了一种用于压缩数据的系统。该系统包括编码器神经网络,其被配置为接收要压缩的数据,并根据一组编码器神经网络参数的当前值来处理数据。编码器神经网络生成包括作为代码符号的有序集合的数据的表示的输出。系统还包括压缩子系统,其被配置为接收编码器神经网络的输出,该编码器神经网络的输出包括作为代码符号的有序集合的数据的表示。识别代码符号的集合到一个或多个代码符号子集的划分。对于每个代码符号子集,基于代码符号子集并从多个代码符号概率分布的字典中识别代码符号子集的代码符号概率分布。通过使用为代本文档来自技高网...

【技术保护点】
1.一种用于压缩数据的系统,所述系统包括:/n编码器神经网络,被配置为执行操作,所述操作包括:/n接收要压缩的数据;/n根据一组编码器神经网络参数的当前值处理数据,以生成包括作为代码符号的有序集合的数据的表示的输出;/n压缩子系统,被配置为执行操作,所述操作包括:/n接收编码器神经网络的输出,所述编码器神经网络的输出包括作为代码符号的有序集合的数据的表示;/n识别代码符号的集合到一个或多个代码符号子集的划分;/n对于每个代码符号子集:/n从多个代码符号概率分布的字典中,并且基于代码符号子集,/n识别代码符号子集的代码符号概率分布;/n通过使用为代码符号子集识别的代码符号概率分布对代码符号子集进...

【技术特征摘要】
【国外来华专利技术】20180521 US 15/985,3401.一种用于压缩数据的系统,所述系统包括:
编码器神经网络,被配置为执行操作,所述操作包括:
接收要压缩的数据;
根据一组编码器神经网络参数的当前值处理数据,以生成包括作为代码符号的有序集合的数据的表示的输出;
压缩子系统,被配置为执行操作,所述操作包括:
接收编码器神经网络的输出,所述编码器神经网络的输出包括作为代码符号的有序集合的数据的表示;
识别代码符号的集合到一个或多个代码符号子集的划分;
对于每个代码符号子集:
从多个代码符号概率分布的字典中,并且基于代码符号子集,
识别代码符号子集的代码符号概率分布;
通过使用为代码符号子集识别的代码符号概率分布对代码符号子集进行熵编码,生成代码符号子集的熵编码表示;
确定代码符号子集的压缩表示,所述压缩表示包括:(i)代码符号子集的熵编码表示,和(ii)指示用于对代码符号子集进行熵编码的代码符号概率分布的数据;
基于代码符号子集的压缩表示来确定数据的压缩表示。


2.根据权利要求1所述的系统,其中,所述要压缩的数据包括图像。


3.根据权利要求1-2中任一项所述的系统,其中,所述编码器神经网络是卷积神经网络。


4.根据权利要求1-3中任一项所述的系统,还包括被配置为执行操作的学习子系统,所述操作包括:
由编码器神经网络并且根据所述一组编码器神经网络参数的当前值处理一组训练数据中的数据,以生成包括所述一组训练数据中的数据的表示的、作为代码符号的有序集合的输出;
对于代码符号的每个有序集合,识别代码符号的有序集合到一个或多个代码符号子集的划分;以及
基于代码符号的有序集合的代码符号子集中的代码符号的分布,确定多个代码符号概率分布的字典。


5.根据权利要求4所述的系统,其中,确定代码符号概率分布的字典包括:
对于代码符号的有序集合的代码符号子集中的每一个,确定反映代码符号子集中的代码符号的出现频率的相应代码符号概率分布;
对确定的代码符号概率分布进行聚类;以及
基于聚类的代码符号概率分布的聚类中心来确定代码符号概率分布的字典。


6.根据权利要求5所述的系统,其中,对代码符号概率分布进行聚类包括基于散度度量来确定代码符号概率分布之间的距离。


7.根据权利要求1-6中任一项所述的系统,其中,识别代码符号子集的代码符号概率分布包括:
对于字典中的每个代码符号概率分布,基于代码符号概率分布确定代码符号子集的熵编码表示的对应长度;以及
将代码符号子集的代码符号概率分布识别为来自字典的、具有熵编码表示的最小对应长度的代码符号概率分布。


8.根据权利要求7所述的系统,其中,基于代码符号概率分布确定代码符号子集的熵编码表示的长度包括根据代码符号概率分布,确定在代码符号子集中的每个代码符号上的、代码符号的概率的对数的总和。


9.根据权利要求1-8中任一项所述的系统,其中:
由所述压缩子系统执行的操作还包括:
将一个或多个代码符号子集确定为候选代码符号子集;
基于候选代码符号子集确定自定义代码符号概率分布;
基于候选代码符号子集的熵编码表示的长度的减少来确定节省值,所述候选代码符号子集的熵编码表示的长度的减少通过使用自定义代码符号概率分布而不是来自字典的代码符号概率分布对候选代码符号子集进行熵编码来实现;
基于表示自定义代码符号概率分布所要求的数据长度来确定成本值;和
响应于确定节省值大于成本值,则通过使用自定义代码符号概率分布对候选代码符号子集进行熵编码来生成候选代码符号子集的代码符号的熵编码表示。


10.根据权利要求1-9中任一项所述的系统,其中,识别代码符号的集合到一个或多个代码符号子集的划分包括识别代码符号的集合到多个不同的合...

【专利技术属性】
技术研发人员:DC米南M科韦尔S辛格SJ黄GD托德里西
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1