【技术实现步骤摘要】
基于频域分析和深度学习的光场图像超分辨率重建方法
本专利技术涉及一种图像超分辨率重建技术,尤其是涉及一种基于频域分析和深度学习的光场图像超分辨率重建方法。
技术介绍
作为一种新兴的计算成像技术,光场成像可同时记录场景中光线的强度(即空间信息)与方向(即角度信息),正受到学术界和工业界的广泛研究和关注。最近,基于光场成像的光学仪器,如光场相机,被开发以获取更多的场景信息。同时,许多光场应用也随之产生,如3D重建、深度估计、捕获后重聚焦等。通过在主镜头和成像传感器之间插入微透镜阵列等光学组件,光场相机可实现在单次曝光中采集空间和角度信息,但受限于成像传感器的尺寸,密集的角度采样会导致稀疏的空间采样,反之亦然。因此,成像结果存在空间分辨率与角度分辨率相互制约的问题,这严重阻碍了光场成像的实际应用与发展,使得光场图像超分辨率重建成为了光场研究领域的一个热点。现有的光场图像超分辨率重建方法可以大致分为两类:第一类是空间超分辨率重建,其旨在提高光场图像的空间分辨率;第二类是角度超分辨率重建,其目标是合成新视图,进而提高光场图像的 ...
【技术保护点】
1.一种基于频域分析和深度学习的光场图像超分辨率重建方法,其特征在于包括以下步骤:/n步骤1:选取Num幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像,及每幅低空间和角度分辨率光场图像对应的空间分辨率为β
【技术特征摘要】
1.一种基于频域分析和深度学习的光场图像超分辨率重建方法,其特征在于包括以下步骤:
步骤1:选取Num幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像,及每幅低空间和角度分辨率光场图像对应的空间分辨率为βsW×βsH且角度分辨率为βaU×βaV的彩色三通道的参考高空间和角度分辨率光场图像,将选取的第n幅低空间和角度分辨率光场图像记为将对应的参考高空间和角度分辨率光场图像记为其中,Num>1,βs表示空间分辨率提升倍数,βa表示角度分辨率提升倍数,βs和βa的值均大于1,1≤n≤Num;
步骤2:对每幅低空间和角度分辨率光场图像进行初始超分辨率重建,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像,将对应的初始重建高空间和角度分辨率光场图像记为的获取过程为:
步骤2_1:将重组为子孔径图像阵列,并作为原始子孔径图像阵列,原始子孔径图像阵列中包含有U×V幅子孔径图像,且每幅子孔径图像的空间分辨率为W×H,即原始子孔径图像阵列在宽度方向上包含有U幅子孔径图像且在高度方向上包含有V幅子孔径图像,每幅子孔径图像的宽度为W且高度为H;
步骤2_2:计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u,v+1)处的子孔径图像之间的光流图,并计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u+1,v)处的子孔径图像之间的光流图;其中,1≤u≤U-1,1≤v≤V-1;
步骤2_3:根据计算得到的所有光流图,对原始子孔径图像阵列中的每幅子孔径图像进行后向绘制,绘制得到新的子孔径图像,进而与原始子孔径图像阵列中的所有子孔径图像进行组合得到包含有βaU×βaV幅子孔径图像的子孔径图像阵列,作为新子孔径图像阵列;其中,新子孔径图像阵列中的每幅子孔径图像的空间分辨率为W×H;
步骤2_4:对新子孔径图像阵列中的每幅子孔径图像进行双三次插值以提升空间分辨率,共得到βaU×βaV幅空间分辨率为βsW×βsH的子孔径图像;再将βaU×βaV幅空间分辨率为βsW×βsH的子孔径图像构成的子孔径图像阵列重构为空间分辨率为βsW×βsH且角度分辨率为βaU×βaV的彩色三通道的初始重建高空间和角度分辨率光场图像,即
步骤3:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的子孔径图像阵列中位置为的子孔径图像作为中心子孔径图像;然后采用语义分割方法,提取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图;接着计算每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的每幅语义概率图中的所有像素点的像素值的均值;再按均值从大到小的顺序,选取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图中均值最大的8幅语义概率图,作为每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图;其中,符号为向上取整运算符号,语义概率图的空间分辨率为βsW×βsH,采用语义分割方法时设定获取的语义概率图的数量大于8;
步骤4:对每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像的获取过程为:
步骤4_1:将转换到YCbCr颜色空间;然后将中的Y通道图像重组为微透镜图像阵列,该微透镜图像阵列中包含有βsW×βsH幅单通道的微透镜图像,且每幅微透镜图像的分辨率为βaU×βaV,即该微透镜图像阵列在宽度方向上包含有βsW幅微透镜图像且在高度方向上包含有βsH幅微透镜图像,每幅微透镜图像的宽度为βaU且高度为βaV;
步骤4_2:采用离散余弦变换,将中的Y通道图像所对应的微透镜图像阵列中的每幅微透镜图像转换到频域,得到中的Y通道所对应的微透镜图像阵列中的每幅微透镜图像的DCT系数图像;然后按中的Y通道图像所对应的微透镜图像阵列中的各幅微透镜图像的位置,将中的Y通道图像所对应的微透镜图像阵列中的所有微透镜图像的DCT系数图像构成DCT系数图像阵列,该DCT系数图像阵列中包含有βsW×βsH幅DCT系数图像,且每幅DCT系数图像的分辨率为βaU×βaV;
步骤4_3:将中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中同坐标位置的DCT系数提取出,并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为βsW×βsH的DCT频率图像,共得到βaU×βaV幅DCT频率图像;
步骤4_4:将βaU×βaV幅DCT频率图像分为直流分量图像、低频分量图像、中频分量图像和高频分量图像四类;其中,直流分量图像中的DCT系数均为直流系数,低频分量图像中的DCT系数均为低频系数,中频分量图像中的DCT系数均为中频系数,高频分量图像中的DCT系数均为高频系数,直流分量图像的数量为C1,低频分量图像的数量为C2,中频分量图像的数量为C3,高频分量图像的数量为C4,且C1+C2+C3+C4=βaU×βaV;
对每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组有包含直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,按步骤4_1至步骤4_4的过程,以相同的方式获取;
步骤5:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组DCT频率图像定义为失真DCT频率图像,将每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组DCT频率图像定义为参考DCT频率图像;然后将Num组语义概率图、Num组失真DCT频率图像、Num组参考DCT频率图像构成训练集;其中,每组语义概率图、失真DCT频率图像和参考DCT频率图像相互对应;
步骤6:构建四个结构相同的2D卷积神经网络,分别作为直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络和高频分量频率复原网络;
将训练集中的Num组参考DCT频率图像中的所有直流分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有直流分量图像以及对应的Num组语义概率图输入到直流分量频率复原网络中进行训练,在训练结束后得到直流分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的直流分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有直流分量图像以及对应的一组语义概率图输入到训练有素的直流分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像;
将训练集中的Num组参考DCT频率图像中的所有低频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有低频分量图像以及对应的Num组语义概率图输入到低频分量频率复原网络中进行训练,在训练结束后得到低频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的低频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有低频分量图像以及对应的一组语义概率图输入到训练有素的低频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像;
将训练集中的Num组参考DCT频率图像中的所有中频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有中频分量图像以及对应的Num组语义概率图输入到中频分量频率复原网络中进行训练,在训练结束后得到中频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的中频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有中频分量图像以及对应的一组语义概率图输入到训练有素的中频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像;
将训练集中的Num组参考DCT频率图像中的所有高频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有高频分量图像以及对应的Num组语义概率图输入到高频分量频率复原网络中进行训练,在训练结束后得到高频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的高频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有高频分量图像以及对应的一组语义概率图输入到训练有素的高频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像;
步骤7:构建一个3D卷积神经网络,作为频率精细网络;将训练集中的每组参考DCT频率图像组合成1个参考3D频率伪视频;将训练集中的每组失真DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个失真3D频率伪视频;然后将训练集中的Num组参考DCT频率图像所对应的参考3D频率伪视频作为训练标签,并将训练集中对应的Num组失真DCT频率图像所对应的失真3D频率伪视频输入到频率精细网络中进行训练,在训练结束后得到频率精细网络中的各卷积核的最佳参数,即得到训练有素的频率精细网络模型;
步骤8:任意选取一幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像作为测试图像;然后按照步骤2至步骤4的过程,以相同的方式获得测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图、一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有直流分量图像输入到训练有素的直流分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有低频分量图像输入到训练有素的低频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有中频分量图像输入到训练有素的中频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有高频分量图像输入到训练有素的高频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像;再将测试图像对应的一组DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个测试3D频率伪视频;最后将测试3D频率伪视频输入到训练有素的频率精细网络模型中进行测试,测试得到测试图像对应的精细复原频率伪视频;
步骤9:将测试图像对应的精细复原频率伪视频转换为一组精细复原DCT频率图像,其包含有精细复原直流分量图像、精细复原低频分量图像、精细复原中频分量图像和精细复原高频分量图像四类图像;然后按照步骤4_1至步骤4_3的逆过程,对测试图像对应的一组精细复原DCT频率图像执行逆离散余弦变换,重构得到一幅单通道的高空间和角度分辨率光场图像,其对应Y通道图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像转换到YCbCr颜色空间,并提取出Cb通道图像和Cr通道图像;再将重构得到的单通道的高空间和角度分辨率光场图像与提取出的Cb通道图像和Cr通道图像组合成一幅YCbCr颜色空间的高空间和角度分辨率光场图像;最后将YCbCr颜色空间的高空间和角度分辨率光场图像转换到RGB颜色空间,得到测试图像对应的空间分辨率为βsW×βsH且角度分辨率为βaU×βaV的彩色三通道的重建高空间和角度分辨率光场图像。
2.根据权利要求1所述的基于频域分析和深度学习的光场图像超分辨率重建方法,其特征在于所述的步骤6中,构建的2D卷积神经网络的结构为:该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器,特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成,重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成;第一2D卷积层的输入端接收C幅宽度为βsW且高度为βsH的第一图像和8幅宽度为βsW且高度为βsH的第二图像的级联操作结果,即接收C+8幅图像,第一2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff0;第一扩张密集残差块的输入端接收Ff0中的所有频率特征图,第一扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff1;第二扩张密集残...
【专利技术属性】
技术研发人员:郁梅,陈晔曜,徐海勇,蒋刚毅,
申请(专利权)人:宁波大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。