基于深度学习的感兴趣区域图像编码、解码系统及方法技术方案

技术编号:21370610 阅读:30 留言:0更新日期:2019-06-15 11:26
本发明专利技术公开了一种基于深度学习的感兴趣区域图像编码系统及方法,包括感兴趣区域编码网络模块、码率分配模块和熵编码模块。图像输入系统后,感兴趣区域编码网络模块同时对输入图像进行正向多尺度分解变换以及感兴趣区域分割预测,得到图像的多尺度特征和感兴趣区域掩模,再经过码率分配模块为感兴趣区域分配更多的特征,分配后的特征经过量化和熵编码得到二进制码流;同时提供了一种感兴趣区域图像解码系统及方法,用于解码上述编码系统及方法形成的编码。本发明专利技术使用深度学习技术构建感兴趣区域编解码网络和熵编解码器,利用大量数据训练得到最优模型参数,在实际应用中可达到显著优于现有感兴趣编码系统的主观和客观的编码性能。

Region of Interest Image Coding and Decoding System and Method Based on Deep Learning

The invention discloses a region of interest image coding system and method based on depth learning, including a region of interest coding network module, a rate allocation module and an entropy coding module. After the image input system, the ROI coding network module performs forward multi-scale decomposition transformation and ROI segmentation prediction on the input image at the same time, obtains the multi-scale features and ROI mask of the image, then allocates more features to ROI through the rate allocation module, and obtains binary stream by quantization and entropy coding of the assigned features. A region of interest image decoding system and method are provided for decoding the codes formed by the above coding system and method. The method uses deep learning technology to construct a region of interest coding and decoding network and an entropy codec, and uses a large number of data training to obtain the optimal model parameters, which can achieve significantly better subjective and objective coding performance than the existing interest coding system in practical application.

【技术实现步骤摘要】
基于深度学习的感兴趣区域图像编码、解码系统及方法
本专利技术涉及图像处理领域,尤其是涉及一种基于深度学习的感兴趣区域图像编码、解码系统及方法。
技术介绍
如果在进行图像编码时为人们感兴趣的区域分配比背景区域更多的码字,就既明显地减少编码所需码率,也能保持人们感兴趣内容有较高的编码质量。感兴趣区域图像编码可以为众多图像处理和分析系统减少大量的数据冗余,因此在实际应用中有着十分重要的实用价值。感兴趣区域编码和一般图像编码类似,仍然可以建模为一个率失真最优化的问题,不同在于需要对感兴趣区域的失真赋予更大的惩罚。这是个高度非线性的问题,很难直接求解。对于感兴趣区域图像编码的研究已经有较长的历史了,研究人员提出了大量的方法,但是大多数方法都基于一种级联的框架。该框架将感兴趣区域编码分为两个独立的步骤:感兴趣区域预测和基于感兴趣掩模的编码。使用该框架的编码器首先使用基于目标检测或分割的方法预测出感兴趣区域,生成一副二进制掩模。然后基于该掩模,采用某种编码标准进行编码,为掩模指示的区域分配更多的码字,从而达到感兴趣区域编码的目的。这种传统的级联式的框架很好理解,也容易基于现有方法实现,但是这种框架从理论上无法得到一种最优化的感兴趣区域编码系统。近几年深度学习技术在图像处理和分析领域取得多项重大进展。深度学习技术,尤其是卷积神经网络技术,被证明有十分强大的解决复杂优化问题的能力。比如He等人提出的mask-rcnn,同时解决了目标检测,目标分割和目标分类的综合优化问题。而且基于深度卷积神经网络的目标分割和图像编码的研究,也取得了许多卓著的成果。这些研究进展,启发了我们使用深度学习技术,来解决感兴趣区域编码这一复杂的优化问题。
技术实现思路
针对上述技术问题,提供了基于深度学习的感兴趣区域图像编码、解码系统及方法、同时提供了一种基于上述编码、解码系统及方法实现的编码器、解码器以及终端,结合深度学习技术,在保持优越编码性能的同时,实现输出目标码率的图像压缩。本专利技术是通过以下技术方案实现的。根据本专利技术的第一个方面,提供了一种基于深度学习的感兴趣区域图像编码系统,包括:感兴趣区域编码网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并进行量化,同时对所述原始图像进行图像分析得到感兴趣区域掩模矩阵,将量化的所述多个尺度的图像特征以及所述感兴趣区域掩模矩阵发送至码率分配模块;码率分配模块,根据所述感兴趣区域编码网络模块得到的所述感兴趣区域掩模矩阵和所述多个尺度的图像特征进行码率分配,并将分配后的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将所述码率分配模块分配后的整数图像特征编码为二进制码流并输出。优选地,所述感兴趣区域编码网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层和采用广义归一化层;通道连接操作将多个尺度的图像特征在通道维度上连接在一起,输出完整的特征图。优选地,所述码率分配模块基于高效的元素过滤或元素乘法操作。优选地,所述熵编码模块基于二进制数字编码,采用的熵编码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵编码模块中。优选地,所述网络训练过程为:利用随机梯度下降算法,对概率模型参数进行优化,直到率失真损失收敛。根据本专利技术第二个方面,提供了一种感兴趣区域图像解码系统,用于解码所述系统形成的编码,包括:熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到的图像特征并输出至感兴趣区域解码网络模块;感兴趣区域解码网络模块,基于深度卷积神经网络,将熵解码得到的图像特征重构为解码图像并输出。优选地,所述感兴趣区域解码网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将多个尺度的图像特征在通道维度上平均分成多组特征图输出。优选地,所述熵解码模块基于二进制数字解码,采用的熵解码模型通过网络训练及测试过程统计更新得到;其中,网络训练过程采用基于线性样条插值的概率模型进行近似,测试过程采用的概率模型由网络训练完成后的概率模型离线计算得到,并保存在熵解码模块中。根据本专利技术的第三个方面,提供了一种基于深度学习的感兴趣区域图像编码方法,包括:S101:将原始图像输入感兴趣区域编码网络模块,同时输出得到多尺度图像特征以及感兴趣区域掩模矩阵;S102:对S101中得到的多尺度图像特征量化为整数;S103:根据感兴趣区域掩模矩阵对S102中得到的量化成整数的多尺度图像特征进行码率分配;S104:对S103中得到的分配后的图像特征进行熵编码,得到二进制码流并输出。优选地,所述S104包括:分别对图像特征中长、宽、二维感兴趣掩模以及保留下来的特征进行熵编码;其中长和宽直接采用16比特进行二进制化,不进行算术编码;二维感兴趣掩模中的元素都是二进制数,直接按扫描顺序写入到码流中,不进行算术编码;保留下来的特征采用二进制算术编码。优选地,所述基于深度学习的感兴趣图像编码系统还包括参数离线训练过程,步骤如下:A1:在高清自然训练图像中随机裁剪256×256的图像块组成训练集,并对所述图像块进行随机翻转以扩充训练数据,同时对人工标注好的感兴趣区域真值掩模图像进行同样的操作,并将两次操作的结果组成数据标签对以供训练;A2:对网络中的量化操作使用加均匀分布的随机噪声来近似,对生成感兴趣区域掩模时的硬判决操作使用软判决来近似;A3:利用随机梯度下降算法对整个系统的参数进行联合优化,直到率失真损失收敛。优选地,在所述随机梯度下降算法中,损失函数是码率、感兴趣区域的失真和整张图的平均失真的加权和;其中感兴趣区域的失真由像素级失真衡量,整张图的平均失真由全局性结构失真衡量。根据本专利技术的第四个方面,提供了一种基于深度学习的感兴趣区域图像解码方法,用于解码上述编码方法形成的编码,包括:S201,对经过熵编码得到的二进制码流进行熵解码,得到解码图像特征;S202,采用深度卷积神经网络,对S201中得到的解码图像特征重构为解码图像并输出。优选地,所述S202中,根据元信息,将解码图像特征进行重构,得到解码图像。优选地,所述S201中,熵解码针对二进制码流进行解码,包括:对二进制码流依次解码,得到图像特征中的长、宽、最优尺度以及保留的图像特征。根据本专利技术的第五个方面,提供了一种编码器,执行上述任一项所述的编码方法,将输入原始图像编码后形成二进制码流输出。根据本专利技术的第六个方面,提供了一种解码器,执行上述任一项所述的解码方法,将经过编码后形成的二进制码流重构为解码图像。根据本专利技术第第七个方面,提供了一种终端,安装有上述任一项所述的编码系统和/或解码系统;或,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,所述处理器执行上述任一项所述的编码方法和/或解码方法;或,安装上述任一项所述的编码器和/或解码器。本专利技术取得的有益效果在于:1.利用深度学习技术,学习得到端到端优化的感兴趣区域编码操作,可以取得优化的编码性能;2.感兴趣区域编码网络可以同时输出多尺度特征和隐式感兴趣掩模矩阵,从而可以高效地进行码率分配;3.采用本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的感兴趣区域图像编码系统,其特征在于,包括:感兴趣区域编码网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并进行量化,同时对所述原始图像进行图像分析得到感兴趣区域掩模矩阵,将量化的所述多个尺度的图像特征以及所述感兴趣区域掩模矩阵发送至码率分配模块;码率分配模块,根据所述感兴趣区域编码网络模块得到的所述感兴趣区域掩模矩阵和所述多个尺度的图像特征进行码率分配,并将分配后的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将所述码率分配模块分配后的整数图像特征编码为二进制码流并输出。

【技术特征摘要】
1.一种基于深度学习的感兴趣区域图像编码系统,其特征在于,包括:感兴趣区域编码网络模块,该模块基于深度卷积神经网络,将输入原始图像分解为多个尺度的图像特征并进行量化,同时对所述原始图像进行图像分析得到感兴趣区域掩模矩阵,将量化的所述多个尺度的图像特征以及所述感兴趣区域掩模矩阵发送至码率分配模块;码率分配模块,根据所述感兴趣区域编码网络模块得到的所述感兴趣区域掩模矩阵和所述多个尺度的图像特征进行码率分配,并将分配后的整数图像特征作为编码结果发送至熵编码模块;熵编码模块,将所述码率分配模块分配后的整数图像特征编码为二进制码流并输出。2.如权利要求1所述的基于深度学习的感兴趣区域图像编码系统,其特征在于,所述感兴趣区域编码网络模块基于深度卷积神经网络构建而成,其中:卷积层采用标准的卷积神经网络层;归一化层和采用广义归一化层;通道连接操作将多个尺度的图像特征在通道维度上连接在一起,输出完整的特征图。3.如权利要求1所述的基于深度学习的感兴趣区域图像编码系统,其特征在于,所述码率分配模块基于高效的元素过滤或元素乘法操作。4.一种感兴趣区域图像解码系统,其特征在于,用于解码权利要求1所述系统形成的编码,包括:熵解码模块,对经过熵编码后输出的二进制码流进行熵解码,得到图像特征并输出至感兴趣区域解码网络模块;感兴趣区域解码网络模块,基于深度卷积神经网络将熵解码得到的图像特征重构为解码图像并输出。5.如权利要求4所述的感兴趣区域图像解码系统,其特征在于,所述感兴趣区域解码网络模块基于深度卷积神经网络构建而成,其中:反卷积层采用标准的卷积神经网络层;反归一化层采用广义反归一化层;通道分离操作将图像特征在通道维度上平均分成多组特征图输出。6.一种基于深度学习的感兴趣区域图像编码方法,其特征在于,包括:S101:将原始图像输入感兴趣区域编码网络模块,输出得到多尺度图像特征以及感兴趣区域掩模矩阵;S102:对S101中得到的多尺度图像特征量化为整数;S103:根据感兴趣区域掩模矩阵对S102中得到的量化成整数的多尺度图像特征进行码率分配;S104:对S103中得到的分配后的图像特征进行熵编码,得到二进制码流并输出。7.如权利要求6所述的一种基于深度学习的感兴趣区域图像编码方法,其特征在于,所述S104包括:分别对图像特征中长、宽、二维感兴趣掩模以及保留下来的特征进行熵编码;其中长和宽直接采用16比特进行二进制化,不进行算术编码;二维感...

【专利技术属性】
技术研发人员:陈立蔡春磊张小云高志勇鲁国
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1