一种多码率与快速熵模型计算的图像编解码方法及装置制造方法及图纸

技术编号:34997328 阅读:20 留言:0更新日期:2022-09-21 14:45
本发明专利技术公开了一种多码率与快速熵模型计算的图像编解码方法及装置,本发明专利技术通过空间打乱上下文模型,可以利用空间上相邻特征相似度较高的先验,从通道与空间方向对特征进行重新排列,从而获得更多的先验信息,且特征总计只需要1次编码,2次解码,时间复杂度为O(1),可见,时间复杂度远低于现有的自回归模型,可以提升编解码效率;同时,通过多码率模块进行多码率控制,还可以有效的控制码率范围。此外,通过熵参数估计模型融合超先验信息与上下文特征两部分先验信息,且支持添加ResBlock及下采样方式,能够进一步增大网络感受野,得到更好性能。性能。性能。

【技术实现步骤摘要】
一种多码率与快速熵模型计算的图像编解码方法及装置


[0001]本专利技术涉及图像编解码
,尤其涉及一种多码率与快速熵模型计算的图像编解码方法及装置。

技术介绍

[0002]目前的AI图像编解码算法,主要通过一个AutoEncoder(自编码器)网络来实现。具体来说,编码阶段,输入原始图像,通过卷积下采样及非线性激活函数,将图像变换到高维抽象特征空间,获得特征F,接着通过概率模型P,估计该特征F的预测概率用于熵编码;解码阶段,通过概率模型P计算特征的预测概率用于熵解码,之后将解码特征F送入一个上采样网络,得到解码重建图像。
[0003]上述概率模型P建模越精确,压缩后的图像码率越小,所以优秀的概率模型设计非常关键。近两年出现了自回归模型(PixelCNN Context Model),利用已编码特征先验,进行上下文建模。图1展示了现有的自回归模型进行上下文建模的原理。对于特征F,白色部分为待编码特征值,虚线框外的灰色部分为已编码特征值。虚线框为一个3*3的Mask卷积,沿着每个特征点进行滑动,其中最深颜色块为下一次即将编码特征值,上方灰色特征块为编码该特征值利用到的先验信息。
[0004]通过自回归模型可以利用更多先验信息,可以减少待编码特征信息熵。但是,现有的自回归模型在推理时需要串行解码,时间复杂度为O(N2),可见,其时间复杂度较高,编解码的效率较低,不利于实际部署。

技术实现思路

[0005]本专利技术的目的是提供一种多码率与快速熵模型计算的图像编解码方法及装置,时间复杂度较低,可以提升编解码效率,并能够有效的控制码率范围。
[0006]本专利技术的目的是通过以下技术方案实现的:
[0007]一种多码率与快速熵模型计算的图像编解码方法,包括:
[0008]搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
[0009]输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;
[0010]所述特征f输入至所述超先验模型,获得超先验信息;
[0011]将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;
[0012]所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
[0013]一种多码率与快速熵模型计算的图像编解码装置,该装置包括:
[0014]网络搭建单元,用于搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;
[0015]图像编解码单元,用于接收输入图像,并利用所述图像编解码网络实现图像编解码,包括:输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;所述特征f输入至所述超先验模型,获得超先验信息;将特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;所述解码特征y输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。
[0016]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0017]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0018]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0019]由上述本专利技术提供的技术方案可以看出,一方面,通过空间打乱上下文模型,可以利用空间上相邻特征相似度较高的先验,从通道与空间方向对特征进行重新排列,从而获得更多的先验信息,且时间复杂度较低,可见,时间复杂度远低于现有的自回归模型,可以提升编解码效率;另一方面,通过多码率模块进行多码率控制,可以有效的控制码率范围。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0021]图1为本专利技术
技术介绍
提供的现有的自回归模型进行上下文建模的原理图;
[0022]图2为本专利技术实施例提供的一种多码率与快速熵模型计算的图像编解码方法的流程图;
[0023]图3为本专利技术实施例提供的基于本专利技术图像编解码网络进行图像编解码的示意图;
[0024]图4为本专利技术实施例提供的超先验模型的示意图;
[0025]图5为本专利技术实施例提供的空间打乱熵模型算法原理图;
[0026]图6为本专利技术实施例提供的空间打乱熵模型算法的流程图;
[0027]图7为本专利技术实施例提供的熵参数估计模型的示意图;
[0028]图8为本专利技术实施例提供的一种拓展的空间打乱熵模型算法原理图;
[0029]图9为本专利技术实施例提供的一种多码率与快速熵模型计算的图像编解码装置的示意图;
[0030]图10为本专利技术实施例提供的一种处理设备的示意图。
具体实施方式
[0031]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0032]首先对本文中可能使用的术语进行如下说明:
[0033]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0034]下面对本专利技术所提供的一种多码率与快速熵模型计算的图像编解码方法及装置进行详细描述。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多码率与快速熵模型计算的图像编解码方法,其特征在于,包括:搭建包含分析网络、生成网络、多码率模块、超先验模型、空间打乱上下文模型及熵参数估计模型的图像编解码网络;输入图像通过所述分析网络获得图像特征F,再经前端的多码率模块进行码率变换获得特征f;所述特征f输入至所述超先验模型,获得超先验信息;将所述特征f量化得到的待编码特征输入至空间打乱上下文模型与熵参数估计模型,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,由所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征与超先验信息对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征;所述解码特征输入至后端的多码率模块进行码率逆变换,再通过生成网络对特征进行变换,获得重建图像。2.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,经前端的多码率模块进行码率变换获得特征f,所述特征f通过量化,得到待编码特征y表示为:f=F
×
qy=Round(f)其中,q表示多码率可学习控制变量,round(.)表示四舍五入量化函数。3.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,所述特征f输入至所述超先验模型,获得超先验信息的步骤包括:所述特征f通过所述超先验模型中的超先验分析网络进行卷积处理,卷积处理结果分为两路,其中一路通过量化,获得特征Z,另一路通过拉普拉斯估计模型进行建模,基于建模结果获得特征Z的概率分布;所述特征Z与特征Z的概率分布输入至所述超先验模型中的超先验生成网络,获得超先验信息。4.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征包括:由所述空间打乱上下文模型将待编码特征y分解四个部分,依次记为特征y1、特征y2、特征y3与特征y4;取出在空间位置交错的特征y1与特征y4,由熵参数估计模型结合所述超先验信息对所述特征y1与特征y4进行熵编码与熵解码,获得对应的解码特征y1

与解码特征y4

;将解码特征y1

与解码特征y4

送入空间打乱上下文模型,在通道方向中进行拼接,获得拼接特征;将所述拼接特征沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱
后的特征;将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得上下文特征;由所述熵参数估计模型利用所述超先验信息与上下文特征对所述特征y2与特征y3进行熵编码与熵解码,获得解码特征y2

与解码特征y3

;综合解码特征y1

、解码特征y2

、解码特征y3

与解码特征y4

获得解码特征y

。5.根据权利要求1所述的一种多码率与快速熵模型计算的图像编解码方法,其特征在于,由所述空间打乱上下文模型将所述待编码特征分解为多个部分,其中一部分特征由所述熵参数估计模型结合所述超先验信息进行无损熵编码与无损熵解码,再通过所述空间打乱上下文模型将无损熵解码得到的特征作为先验信息,从通道以及空间方向上进行重新排列,获得上下文特征,再由所述熵参数估计模型结合上下文特征对待编码特征中剩余部分的特征进行无损熵编码与无损熵解码,最终获得解码特征包括:由所述空间打乱上下文模型将待编码特征分解四个部分,依次记为特征y1、特征y2、特征y3与特征y4;由熵参数估计模型结合所述超先验信息对所述特征y1进行熵编码与熵解码,获得对应的解码特征y1

;将解码特征y1

送入空间打乱上下文模型,沿通道方向拆分为四份,并在空间方向上进行堆叠,获得打乱后的特征,将打乱后的特征通过两个并行的卷积网络,获得两个不同尺度的先验信息,并进行拼接,获得解码特...

【专利技术属性】
技术研发人员:武祥吉陈也达袁庆祝
申请(专利权)人:上海双深信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1