一种基于多分支卷积神经网络的图像和视频增强方法技术

技术编号:19747292 阅读:25 留言:0更新日期:2018-12-12 05:05
本发明专利技术提供一种基于多分支卷积神经网络的图像和视频增强方法,包括:输入低质量的单幅图像或视频序列,稳定求解增强后的图像或者视频;一种新颖的多分支卷积神经网络结构,能够有效解决因光照不足、噪声等因素所导致的图像或视频质量下降问题;一种新颖的训练损失函数,能够有效提高神经网络的精度和稳定度。本发明专利技术的应用之一是无人车(机)驾驶,其原理是针对视频传感器因周围环境变化或干扰所带来的图像质量下降进行处理增强,从而为决策系统提供更高质量的图像及视频信息,从而有助于决策系统做出更加准确、正确的决策。本发明专利技术也可广泛用于视频通话、自动导航、视频监控、短视频娱乐、社交媒体、图像修复等领域。

【技术实现步骤摘要】
一种基于多分支卷积神经网络的图像和视频增强方法
本专利技术涉及计算机视觉和图像处理领域,具体地说是一种基于多分支卷积神经网络的图像和视频增强方法。
技术介绍
图像增强作为图像处理领域的基础性问题,对于许多依赖高质量图像和视频的计算机视觉算法来说具有重要意义。现有的计算机视觉算法大多是针对高质量的图片或者视频进行的处理,但是在实际应用中,受成本和自然条件变化的影响,很难获取高质量的图像和视频。图像增强算法在这种情况下可以作为计算机视觉算法的预处理过程,提高计算机视觉算法输入图像和视频的质量,从而提高计算机视觉算法的精度,产生实际应用价值。近年来,深度学习获得了极大的成功,有力的推动了图像处理、计算机视觉、自然语言处理、机器翻译等诸多领域的发展,这充分说明深度学习的强大潜力。同时,考虑到现有的最先进的计算机视觉方法大多采用深度神经网络的方法,因此我们采用深度神经网络的方法进行图像增强能够非常容易的作为预处理部分嵌入到现有的计算机视觉方法中,这对于实际应用中对于整体算法进行固化和优化非常有帮助。图像增强作为图像处理的基础性问题,大量科学家和研究已经进行了非常久的探索,但由于环境问题变化复杂,引起图像质量下降的因素众多,这个问题没有得到完美的解决,依然是一个极富挑战的问题。目前众多的图像增强算法取得广泛应用的算法大致可以分为直方图均衡化(HE)算法、频域变化算法、偏微分方程算法、基于Retinex理论的算法和基于深度学习的算法。图像直方图均衡化算法及其改进都是通过使图像灰度级的概率密度函数满足近似均匀分布的形式来达到增大图像动态范围和提高图像对比度的目的;频域变化算法是将图像分解为低频图像和高频图像,通过对不同频率的图像进行增强达到突出细节信息的目的;偏微分方程图像增强算法是通过放大图像的对比度场来达到图像增强的目的;Retinex图像增强算法是通过去除原始图像中照度分量的影响,求解出反应物体本质颜色的反射分量,从而达到图像增强的目的。基于深度学习的增强算法大多通过训练一个端到端或者生成模型中一部分的方法达到图像增强的目的。这五类方法中,前四类方法属于传统增强方法,效果相比近几年兴起的深度学习方法有较大的差距,但是现有的深度学习方法大多针对某一种特殊情景进行研究,如噪声、雾霾、低光等。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供一种基于多分支卷积神经网络的图像和视频增强方法,结合多层次的目标损失函数进行优化训练,能够处理多种情景下的图像增强方法,进而实现较高质量的逼真的图像或视频增强结果。本专利技术技术解决方案:一种基于多分支卷积神经网络的图像和视频增强方法,包含以下步骤:(1)根据具体应用场景,采用模拟仿真或人工采集应用场景数据的方法,构建图像或视频的训练数据集;(2)根据应用场景条件,确定多分支卷积神经网络每条分支的网络深度的超参数,构建一个多分支卷积神经网络模型;(3)采用优化方法和目标损失函数,在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练,得到收敛的多分支卷积神经网络模型参数;(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像,首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理,然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的图像按照分块处理的逆过程进行拼接,重叠部分取平均,即得到最终的图像处理结果;对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频,首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理,得到分段后的短视频序列,将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的视频序列按照分段处理的逆过程进行拼接,重叠部分取平均,即得到最终的视频处理结果。所述步骤(1)中,采用模拟采集应用场景数据的方法为:针对光线或照明不足所导致图像质量下降时,首先采用伽马变换调整图像亮度,模拟光线不足可能导致的图像或视频细节缺失情况;然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布;在视频模拟的时候,保证同一视频帧的伽马变换参数保持相同,不同视频帧的伽马参数随机选择;通过对百万级甚至更大规模公开的视频或图像数据集进行处理,即得到视频或图像训练数据集。所述步骤(2)中,超参数包括:输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。步骤(2)中,构造多分支神经网络模型的具体过程如下:(a)构建输入模块,输入模块对视频或图像采用选定的归一化方法进行归一化处理,输入模块的大小即为输入图像的大小;(b)构建特征提取模块,特征提取模块的卷积层个数与网络分支个数保持一致,网络特征个数越多需要消耗内存硬件资源越多,根据实际情况进行选择;然后构建增强模块,增强模块由若干卷积层构成,增强模块的输入为增强模块对应分支的特征提取模块的输出;最后构建融合模块,融合模块接受所有分支的增强模块的输出作为输入,对这些输入进行融合处理得到最终增强结果,融合处理模块实现为:首先将所有分支的增强模块的输出按照最高维度进行拼接,然后进行卷积核大小为1×1的卷积操作得到最终结果;网络层数、网络分支个数、每层特征个数以卷积操作步长都根据具体应用限制进行选择,直观来看就是:网络层数、网络分支个数、网络每层特征个数越多,处理能力越强,需要的资源消耗也越大,卷积操作步长越小处理越精细,消耗资源也越大;(c)构建多分支卷积神经网络的输出模块,输出模块需要对增强的视频或图像进行归一化操作的逆操作,比如简单的将从[0,1]恢复到[0,255];输出模块的大小与增强结果相同,输出模块不需要进行训练;得到一个端到端的多分支卷积神经网络模型。步骤(3)中,所述优化方法采用Adam优化方法,使用Adam优化方法和目标损失函数在训练数据集上进行多次迭代训练,得到收敛的网络模型参数;训练过程中采用学习率递减的方法,每次迭代调整学习率为当前学习率的95%。目标损失函数包含以下三个部分:(3.1)结构相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该在结构上保持一致;(3.2)语义特征相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该具有相同的语义特征;(3.2)区域相似性度量:考虑到图像不同区域质量下降程度不同,应该给予不同区域不同权重,重点关注质量下降严重的区域。目标损失函数Loss由结构化损失、语义信息损失和区域损失构成,如下述公式所示:Loss=α·Lstruct+β·Lcontent+λ·Lregion其中,Lstruct为结构化损失,Lcontent为语义信息损失,Lregion为区域损失,α、β、λ为三个损失的系数,根据具体情境及问题的难以程度调整所占的比重,根据经验,α、β、λ均取1能够较快的收敛到较好的结果;其中,结构化损失Lstruct:其中,μx和μx是像素均值、σx和σy是像素的标准差、σxy是协方差、C1和C2是为了避免分母为0,一般取较小的常数;语义信息损失Lcontent如下所示:其中,E和G分别代表增强结果和目标图像,Wi,jHi,jCi,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数,φi,j代表VG本文档来自技高网
...

【技术保护点】
1.一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于,包含以下步骤:(1)根据具体应用场景,采用模拟仿真或人工采集应用场景数据的方法,构建图像或视频的训练数据集;(2)根据应用场景条件,确定多分支卷积神经网络每条分支的网络深度的超参数,构建一个多分支卷积神经网络模型;(3)采用优化方法和目标损失函数,在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练,得到收敛的多分支卷积神经网络模型参数;(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像,首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理,然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的图像按照分块处理的逆过程进行拼接,重叠部分取平均,即得到最终的图像处理结果;对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频,首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理,得到分段后的短视频序列,将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的视频序列按照分段处理的逆过程进行拼接,重叠部分取平均,即得到最终的视频处理结果。...

【技术特征摘要】
1.一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于,包含以下步骤:(1)根据具体应用场景,采用模拟仿真或人工采集应用场景数据的方法,构建图像或视频的训练数据集;(2)根据应用场景条件,确定多分支卷积神经网络每条分支的网络深度的超参数,构建一个多分支卷积神经网络模型;(3)采用优化方法和目标损失函数,在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练,得到收敛的多分支卷积神经网络模型参数;(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像,首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理,然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的图像按照分块处理的逆过程进行拼接,重叠部分取平均,即得到最终的图像处理结果;对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频,首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理,得到分段后的短视频序列,将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的视频序列按照分段处理的逆过程进行拼接,重叠部分取平均,即得到最终的视频处理结果。2.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:所述步骤(1)中,采用模拟采集应用场景数据的方法为:针对光线或照明不足所导致图像质量下降时,首先采用伽马变换调整图像亮度,模拟光线不足可能导致的图像或视频细节缺失情况;然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布;在视频模拟的时候,保证同一视频帧的伽马变换参数保持相同,不同视频帧的伽马参数随机选择;通过对大规模公开的视频或图像数据集进行处理,即得到视频或图像训练数据集。3.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(2)中,超参数包括:输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。4.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(2)中,构造多分支神经网络模型的具体过程如下:(1)构建输入模块,输入模块对视频或图像采用选定的归一化方法进行归一化处理,输入模块的大小即为输入图像的大小;(2)构建特征提取模块,特征提取模块的卷积层个数与网络分支个数保持一致,网络特征个数越多需要消耗内存硬件资源越多,根据实际情况进行选择;然后构建增强模块,增强模块由若干卷积层构成,增强模块的输入为增强模块对应分支的特征提取模块的输出;最后构建融合模块,融合模块接受所有分支的增强模块的输出作为输入,对这些输入进行融合处理得到最终增强结果,融合处理模块实现为:首先将所有分支的增强模块的输出按照最高维度进行拼接,然后进行卷积核大小为1×1的卷积操作得到最终结果;(3)构建多分支卷积神经网络的输出模块,输出模块需要对增强的视频或图像进行归一化操...

【专利技术属性】
技术研发人员:陆峰吕飞帆赵沁平
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1