基于抽样猜测的数据压缩方法技术

技术编号：23486311 阅读：36 留言：0更新日期：2020-03-10 13:13

本发明专利技术提供一种基于抽样猜测的数据压缩方法，包含：接收一笔数据；于该笔数据的M个数据区域中，抽取N个数据区域；检查N个数据区域中的数据累赘占比；及根据数据累赘占比多寡决定是否压缩该笔数据。

Data compression method based on sampling guess

全部详细技术资料下载

【技术实现步骤摘要】
基于抽样猜测的数据压缩方法
本专利技术涉及一种压缩方法，特别是有关于一种基于抽样猜测的数据压缩方法。
技术介绍
实时数据压缩有快速压缩的需求，通常采用压缩能力较差但具有较快压缩速度的算法。然而，为了达到快速的需求，常常无法判断是否有足够的数据累赘，导致造成压缩后的数据比压缩前的数据还大的现象，此为无意义的压缩。
技术实现思路
有鉴于此，本专利技术一实施例提出一种基于抽样猜测的数据压缩方法，包含：接收一笔数据，该笔数据包含M个数据区域；于该笔数据的M个数据区域中，抽取N个数据区域，其中N<M，且N与M为正整数；检查N个数据区域中的数据累赘占比；及根据数据累赘占比多寡决定是否压缩该笔数据。本专利技术另一实施例还提出一种基于抽样猜测的数据压缩方法，依序对多笔数据的每一笔数据执行下列步骤：于该第i笔数据的Mi个数据区域中，抽取Ni个数据区域，其中N<M，且N、M与i为正整数；检查Ni个数据区域中的数据累赘；于所抽取的各数据区域中均为数据累赘的占比至少为阈值时，将该第i笔数据存放于缓冲区中；及当满足压缩条件时，压缩缓冲区中的第x笔至第i笔的数据，该压缩条件为且其中x、K为正整数。综上所述，根据本专利技术实施例所述的基于抽样猜测的数据压缩方法，可对欲储存的数据进行抽样，检查数据累赘的比例，据以推估数据值不值得压缩，据此可兼顾压缩速度及压缩率。附图说明图1为本专利技术一实施例的系统架构图。图2为本专利技术一实施例的基于抽样猜测的数据压缩方法流程图。r>图3为本专利技术另一实施例的基于抽样猜测的数据压缩方法流程图。符号说明：100计算机系统110处理器120瞬时储存装置121缓冲区130非瞬时储存装置140输入设备200数据具体实施方式参照图1，为本专利技术一实施例的系统架构图。本专利技术实施例由计算机系统100实现。计算机系统100包含处理器110、瞬时储存装置120(如挥发式内存)、非瞬时储存装置130(如硬盘、固态硬盘等)及输入设备140(如网络接口、外接储存装置(如随身碟、外接硬盘等))。计算机系统100可例如为个人计算机、服务器、服务器群集等。瞬时储存装置120包含缓冲区121。在一些实施例中，缓冲区121是位于非瞬时储存装置130中的挥发式内存上。在一些实施例中，缓冲区121是位于非瞬时储存装置130中的非挥发式储存介质上。参照图2，为本专利技术一实施例的基于抽样猜测的数据压缩方法流程图，由处理器110加载程序后执行。所述程序可储存于非瞬时储存装置130中。首先，自输入设备140接收一笔数据200，数据200包含M个数据区域(步骤S210)。在此，M为正整数。参照表1，为M个数据区域(R1～R16)的示例，于此M为16。在步骤S220中，于此笔数据200的M个数据区域中，抽取N个数据区域。在此，N为4，但本专利技术实施例非以此为限，只要N为小于M的正整数即可。于步骤S230中，检查此些N个数据区域中的数据累赘占比。如表1所示，以符号“Z”表示对应的数据区域全部为数据累赘。所述数据累赘可例如为零或其他可视为冗余的字符。在此例中，所抽取的四个数据区域全部为数据累赘，因此数据累赘占比为100％。在步骤S240中，根据数据累赘占比多寡决定是否压缩该笔数据200。于此，可根据所抽取的各数据区域中均为数据累赘的占比是否至少为阈值来判断是否压缩该笔数据200。在本例中，可设定阈值为100％。而因为所抽取的四个数据区域的数据累赘占比为100％，因此将对该笔数据200进行压缩。所述压缩并非限定只能对单笔数据200进行，也可累积多笔数据200一起进行压缩，于后将再详细说明。[表1]R1R2R3R4R5R6R7R8R9R10R11R12R13R14R15R16ZZZZ于此，将再以表2来示例数据累赘的占比非为100％的情形。在此，以符号“A”表示对应的数据区域中不完全为数据累赘，也就是至少部分非为数据累赘。在此例中，所抽取的四数据区域中有三个数据区域为数据累赘，另一个数据区域不完全为数据累赘，因此数据累赘占比为75％。若阈值设定为100％，则不对此笔数据200进行压缩。[表2]R1R2R3R4R5R6R7R8R9R10R11R12R13R14R15R16ZZAZ参照图3，为本专利技术另一实施例的基于抽样猜测的数据压缩方法流程图，由处理器110加载程序后执行。于此，假设是依序对n笔数据200进行处理，n为正整数。在此，以n为8为例，如表3所示，共有八笔数据200。于步骤S310，判断i是否小于或等于n，意即确认n笔数据200是否已处理完毕。于此，i代表现在处理的数据200次序，为正整数。若已处理完毕，则结束此流程，若未处理完毕，则进入步骤S320。在此例中，第i笔数据200包含Mi个数据区域。Mi为正整数。于此，Mi为16，但本专利技术实施例非以此为限。[表3]在步骤S320中，于第i笔数据200的Mi个数据区域中，抽取Ni个数据区域。Ni小于Mi。于此例中，Ni均为相同数值。于此，Ni均为4，但本专利技术实施例非以此为限。接着，进入步骤S330。在步骤S330中，检查此些抽取出的Ni个数据区域中的数据累赘。以第一笔数据D1来说，如表3所示，所抽取出的数据区域R2、R5、R10、R14中均为数据累赘。接着，在步骤S340中，判断所抽取的各数据区域中均为数据累赘的占比是否至少为阈值。若是，则进入步骤S350，将第i笔数据200存放在缓冲区121中，以利后续进行压缩。若否，表示该第i笔数据200不适合压缩的机率很高，则进入步骤S380，以原值储存该第i笔数据200。在此，阈值仍以100％为例说明。由于第一笔数据D1所抽取出的四个数据区域均为数据累赘，因此会将第一笔数据D1存放于缓冲区121中，接着进入步骤S360。在步骤S360中，计算缓冲区121中的第x笔至第i笔的数据200对应的Ni/Mi的总和。在此，缓冲区121中仅有第一笔数据D1，其Ni/Mi总和为1/4。于此步骤中，会判断Ni/Mi的总和是否小于且接近K，作为压缩条件。K为正整数，于此以K为1为例。所述接近K的意思是指小于或等于K的最大值，若再将下一笔数据200的Ni/Mi(即Ni+1/Mi+本文档来自技高网...

【技术保护点】
1.一种基于抽样猜测的数据压缩方法，其特征在于，包含：/n接收一笔数据，该笔数据包含M个数据区域；/n于该笔数据的M个数据区域中，抽取N个该数据区域，其中N<M，且N与M为正整数；/n检查该N个数据区域中的数据累赘占比；及/n根据该数据累赘占比多寡决定是否压缩该笔数据。/n

【技术特征摘要】
1.一种基于抽样猜测的数据压缩方法，其特征在于，包含：
接收一笔数据，该笔数据包含M个数据区域；
于该笔数据的M个数据区域中，抽取N个该数据区域，其中N<M，且N与M为正整数；
检查该N个数据区域中的数据累赘占比；及
根据该数据累赘占比多寡决定是否压缩该笔数据。

2.如权利要求1所述的基于抽样猜测的数据压缩方法，其特征在于，所述根据该数据累赘占比多寡决定是否压缩该笔数据，是判断所抽取的各该数据区域中均为数据累赘的占比是否至少为阈值。

3.如权利要求2所述的基于抽样猜测的数据压缩方法，其特征在于，还包含：以当前该笔数据的该数据累赘占比，决定下一笔该数据的该数据区域抽取数量。

4.一种基于抽样猜测的数据压缩方法，其特征在于，包含：
依序对多笔数据的每一笔该数据执行下列步骤，其中第i笔数据包含Mi个数据区域：
于该第i笔数据的Mi个该数据区域中，抽取Ni个该数据区域，其中N<M，且N、M与i为正整数；
检查该Ni个数据区域中的数据累赘；
于所抽取的...

【专利技术属性】
技术研发人员：曹世强，简廷芳，郑又嘉，
申请(专利权)人：捷鼎创新股份有限公司，
类型：发明
国别省市：中国台湾;71

全部详细技术资料下载我是这个专利的主人