用于数字图像可扩展压缩的计算机实现的方法技术

技术编号：40774938 阅读：3 留言：0更新日期：2024-03-25 20:21

一种用于数字图像可扩展压缩的计算机实现的方法。该方法包括以下步骤：在语义层上，从图像中提取语义信息；在结构层上，从图像中提取结构信息；在信号层上，从图像提取信号信息；以及将语义信息、结构信息和信号信息中的每一项压缩成为比特流。因此，提供了一种新颖的可扩展的跨模式图像压缩技术，该技术具有广泛的新颖功能，使编解码器可用于从语义理解到信号级重建等各种应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像和视频压缩，特别是涉及基于深度学习的压缩。

技术介绍

1、图像压缩的目的是紧凑地表示图像信号以方便传输和存储。从另一个角度来看，图像压缩的一个主要目标是所使用的比特数受限的情况下，使重建的视觉信息的最终效用最大化。在过去的几十年里，一系列的图像压缩标准已经被开发出来，如jpeg[46]、jpeg2000[31]、高效率视频编码(hevc)/h.265[37]和通用视频编码(vvc)/h.266[8]。这些图像压缩标准中有许多属于可扩展编码，使输入信号被编码成嵌入式比特流，这样一来比特流可以被部分解码，以进行相应的重建。可扩展性有很多类型，包括空间可扩展性、时间可扩展性和质量可扩展性[7,34]。大多数研究者主要关注像素保真度的可扩展压缩[12]。可扩展压缩已经被证明是一种有效的表示方法，它将视觉信号编码成若干层。因此，高层的解码通常依赖于低层的存在[48]。在[47]中，显示了基于深度生成模型的优秀重建能力，紧凑的特征表示和视觉信号压缩可以自然地被纳入统一的可扩展编码框架中。

2、近年来，机器学习技术的发展令人振奋，这使得完全由数据驱动的图像压缩解决方案成为可能[4,5,18,26]。基于学习的图像压缩已经取得了显著的压缩性能提升，揭示了神经网络能够对视觉信号进行非线性建模，从而有利于压缩效率[3,18,29]。因此，研究人员探索了关于基于学习的压缩的可扩展方案，大多数编码方案都是基于分层表示的[39,40,47,55]。特别是，一种典型的自动编码器结构由卷积和反卷积的lstm(长短时记忆)递归网络

3、另一方面，随着计算机视觉的发展，擅长传达视觉信息的图像可以通过各种方式被理解和感知。语义信息在图像理解中具有内在的关键性，在视觉信息表示中发挥着重要作用。特别是，它享有几个优点，包括可以用紧凑的方式表示、易于理解、以及与视觉信号紧密相连。然而，遗憾的是，语义信息在目前一些学习型图像表示模型中被忽略了，特别是当端到端编码策略将视觉信号转换为没有足够可解释性的潜伏代码的时候。图像数据可以通过语义扩展性来紧凑地表示，实现语义交流[24,38,41]。tu等人[41]提出了一种端到端的语义可扩展的图像压缩，它逐步压缩粗粒度的语义特征、细粒度的语义特征、以及图像信号。然而，低比特率的编码场景可能会导致不可忽视的编码伪影，如模糊。sun等人[38]提出了一种基于学习的语义结构化图像编码框架，其中比特流的每一部分都代表一个特定的对象，可以直接用于不同的任务。这个框架主要是为机器分析而不是人类感知而设计的。类似地，liu等人[24]提出了语义到信号的可扩展压缩，其中部分比特流可以为机器分析传达信息，同时完整比特流可以被解码为视觉信号。这些编解码器通常用单一的模式来表示图像，但是要实现非常紧凑的表示，并传达语义上有意义的信息，仍然是一个挑战。

技术实现思路

1、本专利技术在一方面提供了一种用于数字图像可扩展压缩的计算机实现的方法。该方法包括以下步骤：在语义层上，从图像中提取语义信息；在结构层上，从图像中提取结构信息；在信号层上，从图像提取信号信息；以及将语义信息、结构信息和信号信息中的每一项压缩成为比特流。

2、在一些实施方式中，语义信息被包括在文本描述中。上述的从图像中提取语义信息的步骤进一步包括使用图像-文本转换来生成图像的文本描述的步骤。

3、在一些实施方式中，生成文本描述的步骤进一步包括：使用卷积神经网络将图像转换成紧凑表示，以及使用循环神经网络从紧凑表示生成文字描述。

4、在一些实施方式中，压缩成为比特流的步骤进一步包括对文本描述进行无损压缩的步骤。

5、在一些实施方式中，压缩成为比特流的步骤进一步包括使用基于学习的编解码器压缩信号信息的步骤。

6、在一些实施方式中，从图像中提取结构信息的步骤进一步包括使用更丰富的卷积特征结构提取来获得结构图的步骤。

7、在本专利技术的另一方面，提供了一种计算机实现的方法，用于从包括语义流、结构流和信号流的多个比特流重建数字图像。该方法包括以下步骤：从语义流解码出数字图像的语义信息；从结构流解码出数字图像的结构信息；合并结构和语义信息，以获得数字图像的感知重建；从信号流解码出数字图像的信号信息；以及使用基于感知重建的信号信息重建数字图像。

8、在一些实施方式中，语义信息包括在文本描述中。解码出数字图像的语义信息的步骤，进一步包括从文本描述生成语义图像的步骤。

9、在一些实施方式中，语义信息包括语义纹理图，其适于提取语义特征。结构信息包括结构图，其适于提取结构。

10、在一些实施方式中，合并结构信息和语义信息的步骤，进一步包括以下步骤：对齐来自语义纹理图的语义特征和来自结构图的结构特征；以及融合对齐的结构特征和语义特征。

11、在一些实施方式中，对齐来自语义纹理图的语义特征和来自结构图的结构特征的步骤，进一步包括以下步骤：将结构图和语义纹理图转换到特征域；以及使用多尺度对齐策略对结构和语义特征进行对齐。

12、在一些实施方式中，融合对齐的结构和语义特征的步骤进一步包括以下步骤：对已对齐的结构特征和语义特征分别进行自校准卷积；以及通过逐元素相加来合并已对齐的结构和语义特征。

13、在一些实施方式中，重建数字图像的步骤进一步包括以下步骤：从结构图和感知重建中生成多尺度结构特征；以及将多尺度结构特征与信号特征相融合以重建数字图像。

14、在本专利技术的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的计算机程序。其中，在计算机程序被处理器运行时控制存储介质所在设备执行上述的用于数字图像可扩展压缩的方法。

15、在本专利技术的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的计算机程序。其中，在计算机程序被处理器运行时控制存储介质所在设备执行上述的从多个比特流重建数字图像的方法。

16、因此，本专利技术的实施例提供了可扩展的跨模态压缩(scmc)方案，其中通过分层勾画不同模态的图像，将图像压缩进一步转换成有关表示的问题。更具体地说，根据针对不同任务的语义、结构和信号层面的表示，提供了一种概念性的组织理念，以对异常复杂的视觉模式进行建模。可扩展的编码范式包含了不同颗粒度的表示，支持不同的应用场景，如高层次的语义通信和低层次的图像重建。解码器能够恢复视觉信息，从基于语义、结构和信号层的可扩展编码中获益。定性和定量的结果表明，根据本专利技术的scmc方案可以在低比特率下准确地传达图像的语义和感知信息，并且与现有最先进的方法相比，取得了很好的速率—失真性能。

17、上述
技术实现思路
既不是为了定义本申请要求保护的专利技术(这是由权利要求书记载的)，也不是为了以任何方式限制本专利技术的范围。...

【技术保护点】

1.一种用于数字图像可扩展压缩的计算机实现的方法，包括以下步骤：

2.如权利要求1所述的方法，其中所述语义信息被包括在文本描述中；上述的从图像中提取语义信息的步骤进一步包括使用图像-文本转换来生成所述图像的所述文本描述的步骤。

3.根据权利要求2所述的方法，其中所述生成文本描述的步骤进一步包括：使用卷积神经网络将所述图像转换成紧凑表示，以及使用循环神经网络从所述紧凑表示生成所述文字描述。

4.如权利要求2所述的方法，其中所述压缩成为比特流的步骤进一步包括对所述文本描述进行无损压缩的步骤。

5.根据权利要求1所述的方法，其中所述压缩成为比特流的步骤进一步包括使用基于学习的编解码器压缩所述信号信息的步骤。

6.根据权利要求1所述的方法，其中所述结构信息包括结构图；所述从图像中提取结构信息的步骤进一步包括使用更丰富的卷积特征结构提取来获得所述结构图的步骤。

7.一种计算机实现的方法，用于从包括语义流、结构流和信号流的多个比特流重建数字图像；该方法包括以下步骤：

8.根据权利要求7所述的方法，其中所述语义

9.根据权利要求7所述的方法，其中所述语义信息包括语义纹理图，其适于提取语义特征；所述结构信息包括结构图，其适于提取结构。

10.根据权利要求9所述的方法，其中所述合并所述结构信息和所述语义信息的步骤，进一步包括以下步骤：

11.根据权利要求10所述的方法，其中所述对齐来自所述语义纹理图的所述语义特征和来自所述结构图的结构特征的步骤，进一步包括以下步骤：

12.根据权利要求10所述的方法，其中所述融合对齐的所述结构特征和所述语义特征的步骤，进一步包括以下步骤：对已对齐的所述结构特征和所述语义特征分别进行自校准卷积；以及通过逐元素相加来合并已对齐的所述结构特征和所述语义特征。

13.根据权利要求9所述的方法，其中所述重建所述数字图像的步骤进一步包括以下步骤：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求1所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行权利要求7所述的方法。

...

【技术特征摘要】

1.一种用于数字图像可扩展压缩的计算机实现的方法，包括以下步骤：

4.如权利要求2所述的方法，其中所述压缩成为比特流的步骤进一步包括对所述文本描述进行无损压缩的步骤。

5.根据权利要求1所述的方法，其中所述压缩成为比特流的步骤进一步包括使用基于学习的编解码器压缩所述信号信息的步骤。

7.一种计算机实现的方法，用于从包括语义流、结构流和信号流的多个比特流重建数字图像；该方法包括以下步骤：

8.根据权利要求7所述的方法，其中所述语义信息包括在文本描述中；所述解码出所述数字图像的语义信息的步骤，进一步包括从所述文本描述生成语义图像的步骤。...

【专利技术属性】
技术研发人员：王诗淇，张乒乒，邝得互，
申请(专利权)人：香港城市大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人