非二进制上下文混合压缩器/解压缩器制造技术

技术编号:22244723 阅读:45 留言:0更新日期:2019-10-09 23:43
用于压缩器中的非二进制上下文混合的技术包括通过多个上下文模型生成关于要编码的下一个符号的值的模型预测。混合器根据模型预测生成最终预测集。算术编码器基于接收的输入符号和该最终预测集生成压缩数据。所接收的输入符号属于具有大小大于2的字母表,并且混合器根据模型预测生成特征矩阵并训练生成最终预测集合的分类器。

Non-Binary Context Hybrid Compressor/Decompressor

【技术实现步骤摘要】
【国外来华专利技术】非二进制上下文混合压缩器/解压缩器
技术介绍
本公开涉及数据处理和存储,更具体地,涉及在诸如闪存系统的数据存储系统中实现非二进制上下文混合压缩器/解压缩器。NAND闪存是电可编程和可擦除非易失性存储器技术,其将每个存储器单元的一个或多个数据位存储为晶体管的浮栅或类似的电荷陷阱结构上的电荷。在典型的实现中,NAND闪存阵列被组织在物理存储器的块(也称为“擦除块”)中,每个块包括多个物理页面,每个物理页面又包含多个存储器单元。借助于用于访问存储器单元的字和位线的布置,闪存阵列通常可以基于页面编程,但是以块为基础擦除。如本领域中已知的,在用新数据编程之前必须擦除NAND闪存的块。通过将高正擦除电压脉冲施加到所选块的p阱体区域并通过对要擦除的存储器单元的所有字线偏置接地来擦除NAND闪存单元块。施加擦除脉冲促进电子从偏置到地的存储器单元的浮动栅极的隧穿,以给予它们净正电荷,从而将存储器单元的电压阈值转变为擦除状态。每个擦除脉冲之后通常是擦除验证操作,其读取擦除块以确定擦除操作是否成功,例如,通过验证擦除块中少于阈值数量的存储器单元未被成功擦除。通常,擦除脉冲继续施加到擦除块,直到擦除验证操作成功或者直到已经使用预定数量的擦除脉冲(即,擦除脉冲预算耗尽)。可以通过将正高编程电压施加到要编程的存储器单元的字线并且通过通过将中间通过电压施加到要禁止编程的相同串中的存储器单元来编程NAND闪存单元。编程电压的施加导致电子隧穿到浮动栅极上以将其状态从初始擦除状态改变为具有净负电荷的编程状态。在编程之后,通常在读取验证操作中读取编程的页面以确保编程操作成功,例如,通过验证编程的页面中少于阈值数量的存储器单元包含位错误。通常,程序和读取验证操作被应用于页面,直到读取验证操作成功或者直到已经使用预定数量的编程脉冲(即,编程脉冲预算耗尽)。PAQ提供了一系列无损数据压缩存档器,其通过协作开发在几个测量压缩比(CR)的基准上排名第一。一般来说,各种PAQ版本实现了上下文混合算法。上下文混合与通过部分匹配(PPM)的预测有关,因为压缩器/解压缩器被分成预测器和算术编码器/解码器,但不同之处在于使用来自大量模型以不同的上下文为条件的概率估计的加权组合来计算下一符号预测。与PPM不同,PAQ中的上下文不需要是连续的。通常,虽然在模型的细节以及预测如何被组合和后处理方面不同,但是所有PAQ版本一次预测和压缩一个比特。当确定下一位概率时,通过算术编码对下一位进行编码。在PAQ1到PAQ3中,每个预测被表示为通过加权求和组合的一对比特计数,对更长的上下文给予更大的权重。在PAQ4到PAQ6中,预测被组合(如在PAQ1到PAQ3中),但是,调整分配给每个模型的权重以支持更准确的模型。在PAQ7和后来的PAQ版本中,每个模型输出概率(而不是一对计数),模型概率使用神经网络混合器进行组合。不幸的是,虽然上下文混合压缩算法几乎居所有已知的压缩基准之首,但由于实现了大量的上下文模型,神经计算的复杂性及其二进制特性,上下文混合压缩算法往往非常慢(例如,PAQ8l算法的带宽约为20kB/s)。
技术实现思路
所公开的技术有利地改进了上下文混合压缩/解压缩算法的实现。用于压缩器中的非二进制上下文混合的技术包括由多个上下文模型生成关于要编码的下一个符号的值的模型预测。混合器从模型预测生成最终预测集。算术编码器基于接收的输入符号和最终预测集生成压缩数据。所接收的输入符号属于具有大小大于2的字母表,并且混合器从模型预测生成特征矩阵并训练生成最终预测集的分类器。根据另一实施例,分类器是最大熵分类器。根据又一实施例,使用随机梯度下降来训练分类器。根据不同的实施例,使用微小批量梯度下降来训练分类器。根据又一实施例,使用噪声对比估计来训练分类器。在另一个实施例中,混合器是神经网络。在又一个实施例中,分类器是使用随机梯度下降训练的最大熵分类器。所公开的技术可以实现为方法、数据存储系统和/或程序产品(包括存储在存储设备中的程序代码)。附图说明图1A是根据一个实施例的数据处理环境的高级框图;图1B是图1A的数据存储系统的示例性接口节点的更详细框图;图1C是图1A的数据存储系统的示例性闪存卡的更详细框图;图2-5示出了根据本公开的NAND闪存系统内的物理存储器的示例性布置;图6A描绘了根据本公开的块条带的示例性实现;图6B描绘了根据本公开的页面条带的示例性实现;图7示出了根据本公开的存储在每个数据页面中的示例性码字;图8描绘了根据本公开的存储在每个数据保护页面中的示例性码字;图9是根据本公开的一个实施例的闪存控制器所采用的闪存管理功能和数据结构的高级流程图;图10描绘了根据本公开的一个实施例的示例性闪存控制器的更详细视图;图11A描绘了示例性传统压缩器的框图;图11B描绘了示例性传统解压缩器的框图;图12描绘了通过上下文混合执行预测的示例性传统预测器的框图;图13描绘了执行逻辑混合的示例性传统混合器的框图;图14描绘了根据本公开的实施例配置的示例性压缩器的框图;图15描绘了包括根据本公开配置的三个不同示例性混合器(即,实施例'A','B'和'C')的各自公式的表格;图16描绘了用于图15的实施例'A'的示例性混合器的框图,其中字母表具有四个输入符号(即,K=4);图17是根据本公开的一个实施例的实现非二进制上下文混合的示例性压缩过程的高级逻辑流程图;图18是根据本公开的一个实施例的实现非二进制上下文混合的示例性解压缩过程的高级逻辑流程图;以及图19是根据本公开另一实施例的用于选择用于非二进制上下文混合的上下文模型的示例性过程的高级逻辑流程图。具体实施方式根据本公开的一个或多个实施例,公开了一种非二进制上下文混合压缩器/解压缩器架构,其包括生成符号预测的上下文模型的集合,所述符号预测被分配为最大熵模型或执行符号预测的混合以生成学习预测的网络的神经元的输入。根据本公开的一个或多个其他实施例,该架构与用于上下文模型选择的技术耦合,该技术用于学习特定客户工作负载的上下文模型的最佳集合(以向最大熵模型或神经网络混合器提供输入)。所公开的压缩技术可以内联(例如,使用现场可编程门阵列(FPGA)加速)或在后台(例如,通过软件)实现。所公开的技术广泛适用于具有神经网络混合的上下文建模。参考附图并且特别参考图1A,示出了示例性数据处理环境100的高级框图,其包括被配置为根据本专利技术执行数据压缩/解压缩的数据存储系统120以及如本文进一步描述的非易失性存储器阵列。如图所示,数据处理环境100包括一个或多个主机,例如具有处理指令和数据的一个或多个处理器104的处理器系统102。处理器系统102可以另外包括本地存储器106(例如,动态随机存取存储器(DRAM)或磁盘),其可以存储由处理器104执行的处理的程序代码、操作数和/或执行结果。在各种实施例中,处理器系统102可以是,例如,移动计算设备(例如智能手机或平板电脑)、膝上型或台式个人计算机系统、服务器计算机系统(例如可从国际商业机器公司获得的POWER系列之一)、或大型计算机系统。处理器系统102也可以是使用各种处理器,例如POWER、IntelX86的嵌入式处理器系统,或与存储器高速缓存、存储器控制器、本地存储器、I/O总线集线器等组合的任何其本文档来自技高网
...

【技术保护点】
1.一种压缩器中的非二进制上下文混合方法,包括:由多个上下文模型生成关于要编码的下一个符号的值的模型预测;由混合器从所述模型预测中生成最终预测集;以及由算术编码器基于接收的输入符号和所述最终预测集生成压缩数据,其中所述接收的输入符号属于大小大于2的字母表,并且所述混合器从所述模型预测生成特征矩阵并训练生成所述最终预测集的分类器。

【技术特征摘要】
【国外来华专利技术】2017.03.14 US 15/458,6511.一种压缩器中的非二进制上下文混合方法,包括:由多个上下文模型生成关于要编码的下一个符号的值的模型预测;由混合器从所述模型预测中生成最终预测集;以及由算术编码器基于接收的输入符号和所述最终预测集生成压缩数据,其中所述接收的输入符号属于大小大于2的字母表,并且所述混合器从所述模型预测生成特征矩阵并训练生成所述最终预测集的分类器。2.如权利要求1所述的方法,其中,所述分类器是最大熵分类器。3.如权利要求1所述的方法,其中使用随机梯度下降来训练所述分类器。4.如权利要求1所述的方法,其中使用微小批量梯度下降来训练所述分类器。5.如权利要求1所述的方法,其中使用噪声对比估计来训练所述分类器。6.如权利要求1所述的方法,其中所述混合器是神经网络。7.如权利要求1所述的方法,其中,所述分类器是使用随机梯度下降训练的最大熵分类器。8.一种数据存储系统,包括:一种非二进制上下文混合压缩器,该压缩器包括:第一多个上下文模型,被配置为生成关于要编码的下一个符号的值的第一模型预测;第一混合器,被配置为从第一模型预测生成第一最终预测集;以及算术编码器,被配置为基于所接收的输入符号和所述第一最终预测集来生成压缩数据,其中所述接收的输入符号属于大小大于2的字母表;以及一个非二进制上下文混合解压缩器,解压缩器包括:第二多个上下文模型,被配置为生成关于要解码的下一个符号的值的第二模型预测;第二混合器,被配置为从所述第二模型预测生成第二最终预测集;以及算术解码器,被配置为基于所述压缩数据和所述第二最终...

【专利技术属性】
技术研发人员:T·P·帕尔内尔T·米特尔洛尔泽T·布拉埃特勒尔C·波奇蒂斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1