基于深度学习的感兴趣区域图像编码、解码系统及方法技术方案

技术编号：21370610 阅读：30 留言：0更新日期：2019-06-15 11:26

本发明专利技术公开了一种基于深度学习的感兴趣区域图像编码系统及方法，包括感兴趣区域编码网络模块、码率分配模块和熵编码模块。图像输入系统后，感兴趣区域编码网络模块同时对输入图像进行正向多尺度分解变换以及感兴趣区域分割预测，得到图像的多尺度特征和感兴趣区域掩模，再经过码率分配模块为感兴趣区域分配更多的特征，分配后的特征经过量化和熵编码得到二进制码流；同时提供了一种感兴趣区域图像解码系统及方法，用于解码上述编码系统及方法形成的编码。本发明专利技术使用深度学习技术构建感兴趣区域编解码网络和熵编解码器，利用大量数据训练得到最优模型参数，在实际应用中可达到显著优于现有感兴趣编码系统的主观和客观的编码性能。

Region of Interest Image Coding and Decoding System and Method Based on Deep Learning

The invention discloses a region of interest image coding system and method based on depth learning, including a region of interest coding network module, a rate allocation module and an entropy coding module. After the image input system, the ROI coding network module performs forward multi-scale decomposition transformation and ROI segmentation prediction on the input image at the same time, obtains the multi-scale features and ROI mask of the image, then allocates more features to ROI through the rate allocation module, and obtains binary stream by quantization and entropy coding of the assigned features. A region of interest image decoding system and method are provided for decoding the codes formed by the above coding system and method. The method uses deep learning technology to construct a region of interest coding and decoding network and an entropy codec, and uses a large number of data training to obtain the optimal model parameters, which can achieve significantly better subjective and objective coding performance than the existing interest coding system in practical application.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的感兴趣区域图像编码、解码系统及方法
本专利技术涉及图像处理领域，尤其是涉及一种基于深度学习的感兴趣区域图像编码、解码系统及方法。
技术介绍
如果在进行图像编码时为人们感兴趣的区域分配比背景区域更多的码字，就既明显地减少编码所需码率，也能保持人们感兴趣内容有较高的编码质量。感兴趣区域图像编码可以为众多图像处理和分析系统减少大量的数据冗余，因此在实际应用中有着十分重要的实用价值。感兴趣区域编码和一般图像编码类似，仍然可以建模为一个率失真最优化的问题，不同在于需要对感兴趣区域的失真赋予更大的惩罚。这是个高度非线性的问题，很难直接求解。对于感兴趣区域图像编码的研究已经有较长的历史了，研究人员提出了大量的方法，但是大多数方法都基于一种级联的框架。该框架将感兴趣区域编码分为两个独立的步骤：感兴趣区域预测和基于感兴趣掩模的编码。使用该框架的编码器首先使用基于目标检测或分割的方法预测出感兴趣区域，生成一副二进制掩模。然后基于该掩模，采用某种编码标准进行编码，为掩模指示的区域分配更多的码字，从而达到感兴趣区域编码的目的。这种传统的级联式的框架很好理解，也容易基于现有方法实现，但是这种框架从理论上无法得到一种最优化的感兴趣区域编码系统。近几年深度学习技术在图像处理和分析领域取得多项重大进展。深度学习技术，尤其是卷积神经网络技术，被证明有十分强大的解决复杂优化问题的能力。比如He等人提出的mask-rcnn，同时解决了目标检测，目标分割和目标分类的综合优化问题。而且基于深度卷积神经网络的目标分割和图像编码的研究，也取得了许多卓著的成果。这些研究进展，启发了我们使用...

【技术保护点】
1.一种基于深度学习的感兴趣区域图像编码系统，其特征在于，包括：感兴趣区域编码网络模块，该模块基于深度卷积神经网络，将输入原始图像分解为多个尺度的图像特征并进行量化，同时对所述原始图像进行图像分析得到感兴趣区域掩模矩阵，将量化的所述多个尺度的图像特征以及所述感兴趣区域掩模矩阵发送至码率分配模块；码率分配模块，根据所述感兴趣区域编码网络模块得到的所述感兴趣区域掩模矩阵和所述多个尺度的图像特征进行码率分配，并将分配后的整数图像特征作为编码结果发送至熵编码模块；熵编码模块，将所述码率分配模块分配后的整数图像特征编码为二进制码流并输出。

【技术特征摘要】
1.一种基于深度学习的感兴趣区域图像编码系统，其特征在于，包括：感兴趣区域编码网络模块，该模块基于深度卷积神经网络，将输入原始图像分解为多个尺度的图像特征并进行量化，同时对所述原始图像进行图像分析得到感兴趣区域掩模矩阵，将量化的所述多个尺度的图像特征以及所述感兴趣区域掩模矩阵发送至码率分配模块；码率分配模块，根据所述感兴趣区域编码网络模块得到的所述感兴趣区域掩模矩阵和所述多个尺度的图像特征进行码率分配，并将分配后的整数图像特征作为编码结果发送至熵编码模块；熵编码模块，将所述码率分配模块分配后的整数图像特征编码为二进制码流并输出。2.如权利要求1所述的基于深度学习的感兴趣区域图像编码系统，其特征在于，所述感兴趣区域编码网络模块基于深度卷积神经网络构建而成，其中：卷积层采用标准的卷积神经网络层；归一化层和采用广义归一化层；通道连接操作将多个尺度的图像特征在通道维度上连接在一起，输出完整的特征图。3.如权利要求1所述的基于深度学习的感兴趣区域图像编码系统，其特征在于，所述码率分配模块基于高效的元素过滤或元素乘法操作。4.一种感兴趣区域图像解码系统，其特征在于，用于解码权利要求1所述系统形成的编码，包括：熵解码模块，对经过熵编码后输出的二进制码流进行熵解码，得到图像特征并输出至感兴趣区域解码网络模块；感兴趣区域解码网络模块，基于深度卷积神经网络将熵解码得到的图像特征重构为解码图像并输出。5.如权利要求4所述的感兴趣区域图像解码系统，其特征在于，所述感兴趣区域解码网络模块基于深度卷积神经网络构建而成，其中：反卷积层采用标准的卷积神经网络层；反归一化层采用广义反归一化层；通道分离操作将图像特征在通道维度上平均分成多组特征图输出。6.一种基于深度学习的感兴趣区域图像编码方法，其特征在于，包括：S101：将原始图像输入感兴趣区域编码网络模块，输出得到多尺度图像特征以及感兴趣区域掩模矩阵；S102：对S101中得到的多尺度图像特征量化为整数；S103：根据感兴趣区域掩模矩阵对S102中得到的量化成整数的多尺度图像特征进行码率分配；S104：对S103中得到的分配后的图像特征进行熵编码，得到二进制码流并输出。7.如权利要求6所述的一种基于深度学习的感兴趣区域图像编码方法，其特征在于，所述S104包括：分别对图像特征中长、宽、二维感兴趣掩模以及保留下来的特征进行熵编码；其中长和宽直接采用16比特进行二进制化，不进行算术编码；二维感...

【专利技术属性】
技术研发人员：陈立，蔡春磊，张小云，高志勇，鲁国，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人