一种数据压缩方法、数据解压方法及相关设备技术

技术编号:35763354 阅读:16 留言:0更新日期:2022-12-01 13:58
本申请实施例公开了一种数据压缩方法、数据解压方法及相关设备,可以应用于图像、视频、文本等数据的无损压缩。该方法可以由压缩设备执行,也可以由压缩设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括:获取第一数据批与第二数据批,在对第一数据批进行压缩的过程中,可以根据第一数据批更新母模型得到第一模型,并用第一模型参与第二数据批的压缩。一方面,在压缩过程中,可以边对待压数据批进行压缩边对母模型进行更新,并且不用保存更新后的新模型,进而适合大规模数据集的压缩。另一方面,在母模型更新过程中,母模型会越来越符合待压缩数据批的分布,因此,压缩率会越来越高。来越高。来越高。

【技术实现步骤摘要】
一种数据压缩方法、数据解压方法及相关设备


[0001]本申请实施例涉及人工智能领域,尤其涉及一种数据压缩方法、数据解压方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,无损压缩作为现代AI中的一个重要技术方向,无损压缩主要可以由深度生成模型来实现,深度生成模型能够非常精准地建模数据的分布从而理论上能够实现比传统算法更高的压缩率。
[0004]然而,如何在实际应用中使用深度生成模型提升数据的压缩率是亟待解决的技术问题。

技术实现思路

[0005]本申请实施例提供了一种数据压缩方法、数据解压方法及相关设备。可以提升待压缩数据批的压缩率。
[0006]本申请实施例第一方面提供了一种数据压缩方法,可以应用于图像、视频、文本等数据的无损压缩。该方法可以由压缩设备执行,也可以由压缩设备的部件(例如处理器、芯片、或芯片系统等)执行。该方法包括:获取第一数据批与第二数据批,例如获取待压缩数据集中的第一数据批与第二数据批;获取母模型;基于第一数据批、母模型以及第一编码器压缩第一数据批得到第一序列,第一编码器与母模型相对应;基于第一数据批更新母模型得到第一模型;基于第二数据批、第一模型、第一序列以及第一编码器压缩第二数据批得到第二序列。其中,母模型用于计算第一概率分布信息,第一概率分布信息用于表示第一数据批中各个变量取值的概率分布。变量取值可以理解为是数据批中的最小压缩单元(或者是最小压缩单元对应的数值)。对于图像压缩来说,变量取值可以是一个像素值或多个像素值。
[0007]本申请实施例中,一方面,在压缩过程中,可以边对待压缩数据批进行压缩边对母模型进行更新,并且不用保存更新后的新模型,进而适合大规模数据集的压缩。另一方面,在母模型更新过程中,母模型会越来越符合待压缩数据批的分布,因此,压缩率会越来越高。另外,相对现有技术中需要对待压缩数据集专门训练新的模型,本申请实施例中的母模型通用性较强,并且可以不用对待压缩数据集专门训练,在压缩待压缩数据集的过程中,不断更新模型。且该更新过程可以在解压过程中通过更新母模型复现,因此通过保存母模型
就可以得到更新后的模型,并不用存储压缩过程中生成的每一个模型,节省存储空间。
[0008]可选地,在第一方面的一种可能的实现方式中,上述步骤还包括:获取第三数据批;基于第二数据批、第一模型、第一序列以及第一编码器压缩第二数据批得到第二序列,包括:基于第三数据批、第一模型、第一序列以及第一编码器压缩第三数据批得到第三序列;基于第三数据批更新第一模型得到第二模型;基于第二数据批、第二模型、第三序列以及第一编码器压缩第二数据批得到第二序列。
[0009]该种可能的实现方式中,母模型可以更新多次,并用更新后的模型压缩后续的数据批,提升压缩率。
[0010]可选地,在第一方面的一种可能的实现方式中,上述步骤还包括:获取第三数据批;基于第二数据批、第一模型、第一序列以及第一编码器压缩第二数据批得到第二序列,包括:基于第三数据批、第一模型、第一序列以及第一编码器压缩第三数据批,得到第三序列;基于第二数据批、第一模型、第三序列以及第一编码器压缩第二数据批得到第二序列。另外,如果模型不在更新,即早停,可以保存提示信息,该提示信息用于指示早停信息,避免解压过程中使用错误模型。
[0011]该种可能的实现方式中,可以通过早停的方式提前结束模型的更新并使用早停时得到的模型压缩后续数据批。由于早停会提前停止模型的进一步更新,早停后进行压缩仅需要进行神经网络的向前传播从而节省了向后传播所需的时间和模型更新的空间(节省空间以允许更大的数据批)。换句话说,相对一直更新模型的方式,通过牺牲压缩比来提升压缩和解压时间效率的改进方案。
[0012]可选地,在第一方面的一种可能的实现方式中,上述步骤基于第一数据批更新母模型得到第一模型,包括:使用优化算法以及第一数据批更新母模型得到第一模型,优化算法包括基于梯度的优化算法、元学习或强化学习。可选地,为了实现解压过程中母模型更新的复现,可以保存更新母模型过程中出现的随机种子,并与母模型共同保存。
[0013]该种可能的实现方式中,可以基于优化算法对母模型进行更新,在解压过程中容易复现,由于不需要像现有技术中对待压缩数据集进行专门的训练,因此,压缩时间相较于现有的压缩时间减少了专门训练待压缩数据集所耗费的时长。
[0014]可选地,在第一方面的一种可能的实现方式中,上述步骤中的母模型是通过以训练数据集中的训练数据批作为神经网络模型的输入,以损失函数的值小于第一阈值为目标对神经网络模型进行训练获取,训练数据集的数据类型与待压缩数据集的数据类型相同,待压缩数据集包括第一数据批与第二数据批,损失函数用于指示神经网络模型输出的概率分布信息与训练数据批中变量取值的实际概率分布信息之间的差异。
[0015]该种可能的实现方式中,通过损失函数对神经网络模型训练以得到训练好的母模型,并且训练数据集的数据类型与待压缩数据集的数据类型相同,从而保证训练好的母模型符合待压缩数据集的分布,提升压缩率。
[0016]可选地,在第一方面的一种可能的实现方式中,上述步骤基于第一数据批、母模型以及第一编码器压缩第一数据批得到第一序列,包括:将第一数据批输入母模型得到第一概率分布信息;基于第一概率分布信息以及第一编码器压缩第一数据批得到第一序列。
[0017]该种可能的实现方式中,通过母模型得到第一数据批的第一概率分布信息,并用该概率分布信息与第一编码器压缩第一数据批得到第一序列。该压缩第一数据批过程中,
并不用预先对第一数据批专门训练,因此压缩时间相较于现有的压缩时间减少了专门训练第一数据批所耗费的时长。
[0018]可选地,在第一方面的一种可能的实现方式中,上述步骤基于第二数据批、第一模型、第一序列以及第一编码器压缩第二数据批得到第二序列,包括:将第二数据批输入第一模型得到第二概率分布信息,第二概率分布信息用于表示第二数据批中各个变量取值的概率分布;基于第二概率分布信息、第一序列以及第一编码器压缩第二数据批得到第二序列。
[0019]该种可能的实现方式中,后续数据批(即第二数据批)使用更新母模型得到的第一模型,第一模型更加符合第二数据批的概率分布,从而提升压缩率。
[0020]可选地,在第一方面的一种可能的实现方式中,上述步骤基于第二数据批、第二模型、第三序列以及第一编码器压缩第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据压缩方法,其特征在于,所述方法包括:获取第一数据批与第二数据批;获取母模型,所述母模型用于计算第一概率分布信息,所述第一概率分布信息用于表示所述第一数据批中各个变量取值的概率分布;基于所述第一数据批、所述母模型以及第一编码器压缩所述第一数据批得到第一序列,所述第一编码器与所述母模型相对应;基于所述第一数据批更新所述母模型得到第一模型;基于所述第二数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第二数据批得到第二序列。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第三数据批;所述基于所述第二数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第二数据批得到第二序列,包括:基于所述第三数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第三数据批得到第三序列;基于所述第三数据批更新所述第一模型得到第二模型;基于所述第二数据批、所述第二模型、所述第三序列以及所述第一编码器压缩所述第二数据批得到所述第二序列。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第三数据批;所述基于所述第二数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第二数据批得到第二序列,包括:基于所述第三数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第三数据批,得到第三序列;基于所述第二数据批、所述第一模型、所述第三序列以及所述第一编码器压缩所述第二数据批得到所述第二序列。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述第一数据批更新所述母模型得到第一模型,包括:使用优化算法以及所述第一数据批更新所述母模型得到所述第一模型,所述优化算法包括基于梯度的优化算法、元学习或强化学习。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述母模型是通过以训练数据集中的训练数据批作为神经网络模型的输入,以损失函数的值小于第一阈值为目标对所述神经网络模型进行训练获取,所述训练数据集的数据类型与待压缩数据集的数据类型相同,所述待压缩数据集包括所述第一数据批与所述第二数据批,所述损失函数用于指示所述神经网络模型输出的概率分布信息与所述训练数据批中变量取值的实际概率分布信息之间的差异。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述第一数据批、所述母模型以及第一编码器压缩所述第一数据批得到第一序列,包括:将所述第一数据批输入所述母模型得到所述第一概率分布信息;
基于所述第一概率分布信息以及所述第一编码器压缩所述第一数据批得到所述第一序列。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述基于所述第二数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第二数据批得到第二序列,包括:将所述第二数据批输入所述第一模型得到第二概率分布信息,所述第二概率分布信息用于表示所述第二数据批中各个变量取值的概率分布;基于所述第二概率分布信息、所述第一序列以及所述第一编码器压缩所述第二数据批得到所述第二序列。8.根据权利要求2所述的方法,其特征在于,所述基于所述第二数据批、所述第二模型、所述第三序列以及所述第一编码器压缩所述第二数据批得到第二序列,包括:将所述第二数据批输入所述第二模型得到第二概率分布信息,所述第二概率分布信息用于表示所述第二数据批中各个变量取值的概率分布;基于所述第二概率分布信息、所述第三序列以及所述第一编码器压缩所述第二数据批得到所述第二序列。9.根据权利要求3所述的方法,其特征在于,所述基于所述第二数据批、所述第一模型、所述第三序列以及所述第一编码器压缩所述第二数据批得到所述第二序列,包括:将所述第二数据批输入所述第一模型得到第二概率分布信息,所述第二概率分布信息用于表示所述第二数据批中各个变量取值的概率分布;基于所述第二概率分布信息、所述第三序列以及所述第一编码器压缩所述第二数据批得到所述第二序列。10.根据权利要求8或9所述的方法,其特征在于,所述基于所述第三数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第三数据批得到第三序列,包括:将所述第三数据批输入所述第一模型得到第三概率分布信息,所述第三概率分布信息用于表示所述第三数据批中各个变量取值的概率分布;基于所述第三概率分布信息、所述第一序列以及所述第一编码器压缩所述第三数据批得到所述第三序列。11.根据权利要求1至10中任一项所述的方法,其特征在于,所述方法还包括:基于第一关联关系确定所述母模型的类型对应的所述第一编码器,所述第一关联关系用于表示所述母模型的类型与所述第一编码器的关联关系,所述类型包括全观测模型和隐变量模型。12.根据权利要求1至10中任一项所述的方法,其特征在于,所述获取母模型,包括:基于待压缩数据集的数据类型获取所述母模型,所述数据类型包括图像数据类型与序列数据类型。13.根据权利要求1至12中任一项所述的方法,其特征在于,所述获取第一数据批与第二数据批,包括:获取待压缩数据集;拆分所述待压缩数据集得到所述第一数据批与所述第二数据批。14.一种数据压缩方法,其特征在于,所述方法包括:获取第一数据批与第二数据批;
获取母模型,所述母模型用于计算第一概率分布信息,所述第一概率分布信息用于表示所述第一数据批中各个变量取值的概率分布;基于所述第一数据批更新所述母模型得到第一模型;基于所述第二数据批、所述第一模型以及第一编码器压缩所述第二数据批得到第一序列,所述第一编码器与所述母模型相对应;基于所述第一数据批、所述母模型、所述第一序列以及所述第一编码器压缩所述第一数据批得到第二序列。15.根据权利要求14所述的方法,其特征在于,所述还包括:获取所述第三数据批;所述基于所述第二数据批、所述第一模型以及第一编码器压缩所述第二数据批得到第一序列,包括:基于所述第三数据批更新所述第一模型得到第二模型;基于所述第二数据批、所述第二模型以及第一编码器压缩所述第二数据批得到第一序列;所述基于所述第一数据批、所述母模型、所述第一序列以及所述第一编码器压缩所述第一数据批得到第二序列,包括:基于所述第三数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第三数据批得到第三序列;基于所述第一数据批、所述母模型、所述第三序列以及所述第一编码器压缩所述第一数据批得到所述第二序列。16.根据权利要求14所述的方法,其特征在于,所述还包括:获取所述第三数据批;所述基于所述第一数据批、所述母模型、所述第一序列以及所述第一编码器压缩所述第一数据批得到第二序列,包括:基于所述第三数据批、所述第一模型、所述第一序列以及所述第一编码器压缩所述第三数据批得到第三序列;基于所述第一数据批、所述母模型、所述第三序列以及所述第一编码器压缩所述第一数据批得到所述第二序列。17.一种数据解压方法,其特征在于,所述方法包括:获取第二序列;获取母模型;基于所述母模型以...

【专利技术属性】
技术研发人员:张琛张世枫法比奥
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1