一种基于特征金字塔的轻量化语义图像翻译方法技术

技术编号：39398833 阅读：14 留言：0更新日期：2023-11-19 15:52

本发明专利技术公开了一种基于特征金字塔的轻量化语义图像翻译方法，涉及计算机图像处理技术领域。本发明专利技术将特征金字塔应用于生成对抗网络的生成器，产生若干个层次不同的特征图，数量由输入图像的尺度决定，使得不同尺度的图片使用不同的特征，大幅减少生成器的参数量。在基于分块生成对抗网络的判别器中引入权重化分支，并改进了训练的损失函数，使得训练正常进行、保证生成图像与真实图像匹配并提高了输出图像的质量。采用本发明专利技术对语义图像进行翻译，可以生成更加真实、质量更高的自然场景图片，并且网络规模较小，更加轻量化，能够在较低硬件条件下运行，可以适应更加丰富的实际生产环境。境。境。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征金字塔的轻量化语义图像翻译方法

[0001]本专利技术涉及计算机图像处理
，具体涉及一种基于特征金字塔的轻量化语义图像翻译方法。

技术介绍

[0002]图像翻译技术广泛应用与图像创作、图像风格化、图像修复、色彩填充等场景中，旨在建立一种图像源域到目标域的映射关系，从而使得原始图像的表示转换到另一种图像表示，这种映射可以是多种多样的，例如从轮廓图到色彩图的转换，图像昼夜、四季的转换，以及语义图像到自然场景图像的转换，这种转换通常是端到端的，即输入输出都是图像。
[0003]随着深度学习的迅速发展，使用生成对抗网络来处理图像翻译任务成为一个热门的研究方向。生成对抗网络在训练中可以学习到源域图像的特征，并以此来生成具有相似特征的目标域图像，从而实现图像翻译。通常，为了生成图像的质量更高，所使用的生成对抗网络往往是大规模的，带来了极大的计算量，对于硬件条件要求较高，从而限制了在有限硬件条件下以及大规模数据条件下的应用。事实上，这种大规模的网络所学习到的特征对于小尺度的图像来说是冗余的，使用这类网络并未对生成图像的质量带来显著的提升，反而带来了硬件资源的浪费。

技术实现思路

[0004]鉴于上述问题，本专利技术提出了一种基于特征金字塔的轻量化语义图像翻译方法，本专利技术基于将特征金字塔的思想应用于生成对抗网络，实现了一种轻量化的语义图像翻译方式。
[0005]本专利技术采用的技术方案为：
[0006]一种基于特征金字塔的轻量化语义图像翻译方法，该方法包括下列步骤：/>[0007]步骤1，构建语义图像翻译网络模型；
[0008]所述语义图像翻译网络模型包括：生成网络和判别网络；
[0009]其中，生成网络包括编码器、解码器和特征图融合模块；
[0010]编码器基于特征金字塔方式输出若干层次不同的特征图，所输出的各层次的特征图按照特征图尺度呈金字塔结构，且不同层次的特征图会包含不同的语义信息，定义编码器输出的特征图的层次数量为M；
[0011]解码器包括M条解码分支，每一条解码分支的输入为编码器输出的一层特征图，各条解码分支用于对输入的特征图进行特征编码处理并输出相同尺寸的特征图；每条解码分支的网络结构相同，依次包括若干个残差网络和若干个反卷积运算模块；
[0012]特征图融合模块的输入为各条解码分支的输出，用于将输入的M个特征图融合后转换为指定尺寸的生成图像；
[0013]判别网络包括权重化分支、分块生成对抗网络分支和第二融合模块，其中，权重化分支的和分块生成对抗网络分支的输入均为特征图融合模块输出的生成图像；分块生成对
抗网络分支用于按照指定的分块尺寸对输入图像进行分块，再基于各分块的内容生成对应的分块特征；权重化分支基于与分块生成对抗网络分支相同的分块方式对对输入图像进行分块，再基于各分块的内容生成各分块的权重；然后将权重化分支与分块生成对抗网络分支的输出通过哈达玛积运算后得到第二生成图像并输入第二融合模块，第二融合模块用于输出第二生成图像与生成网络的输入图像(即编码器的输入图像)所对应的真实图像的真假判别结果；
[0014]步骤2，基于训练图像集对语义图像翻译网络模型进行深度学习训练，当满足预置的训练结束条件时(例如达到设置的最大训练次数或损失函数值收敛等)停止，基于训练后的生成网络得到语义图像翻译器，以用于待翻译图像的图像翻译处理；
[0015]在语义图像翻译网络模型的深度学习训练过程中，生成网络和判别网络交替训练，所述生成网络在训练时采用的损失为平均绝对误差损失、特征匹配损失和全变分损失的加权和。
[0016]进一步的，所述编码器还包括，基于预置的图像尺寸与特征图层次数量之间的映射关系，确定当前输入图像的特征图数量，并从编码器能提取的最大特征图数量所对应的特征图的金字塔结构的底层开始，提取对应数量的特征图，并触发对应的解码分支对当前提取的若个层次的特征图进行解码处理。即本专利技术中，对编码器而言，其最大提取特征图数量是预置的，每一尺度(每一层次的特征图)所对应的解码分支也是事先映射好的。
[0017]进一步的，所述编码器为基于深度卷积网络的网络结构，优选VGG网络(例如VGG16、VGG19等)的特征提取骨干网络。
[0018]进一步的，每一条解码分支构依次包括：若干残差运算模块和若干个反卷积运算模块。
[0019]进一步的，反卷积运算模块依次包括：反卷积层、批归一化层和激活函数。优选的，反卷积运算模块的数量与解码分支的输出特征图的尺寸负相关，即随着尺寸增加N递减。
[0020]进一步的，所述权重化分支依次包括：一个卷积核为3
×
3的卷积层，以及3个平均池化层。
[0021]本专利技术提供的技术方案至少带来如下有益效果：
[0022](1)本专利技术可以在较小参数量的条件下实现高质量的语义图像翻译，能够在较低硬件条件下运行。
[0023](2)本专利技术对于不同尺度的图片使用不同的特征，使得生成器的参数量大幅减少。
[0024](3)本专利技术设计了一种权重化的判别器以及改进的损失函数使得在不提高生成器参数量的前提下，提高生成图像的质量。
附图说明
[0025]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0026]图1为本专利技术实施例所使用网络的整体结构图。
[0027]图2为本专利技术实施例的解码分支结构图。
[0028]图3为本专利技术实施例的特征图融合模块结构图。
[0029]图4为本专利技术实施例的图片分块的示意图。
[0030]图5为本专利技术实施例的权重化分支的结构图。
[0031]图6为现有图像翻译网络与本专利技术在Cityscapes数据集上语义图像翻译的效果对比图。
[0032]其中，从左至右依次为输入图像，pix2pixHD(高清像素到像素)，SPADE(空间自适应非规范化)以及本专利技术实施例的生成图像。
[0033]图7为现有图像翻译网络与本专利技术在Facades数据集上语义图像翻译的效果对比图。其中，从左至右依次为输入图像，pix2pix(像素到像素网络)，pix2pixHD(高清像素到像素网络)，SPADE(空间自适应非规范化)以及本专利技术实施例的生成图像。
[0034]图8为现有图像翻译网络与本专利技术在LaPa数据集上语义图像翻译的效果对比图。其中，从左至右依次为输入图像，pix2pix(像素到像素网络)，pix2pixHD(高清像素到像素网络)，SPADE(空间自适应非规范化)以及本专利技术实施例的生成图像。
[0035]图9为现有图像翻译网络与本专利技术在ADE20K数据集上语义图像翻译的效果对比图。其中，最左侧图像左下角为输入图像，从左至右依次为pix2pix(像素到像素网络)，p本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于特征金字塔的轻量化语义图像翻译方法，其特征在于，包括下列步骤：步骤1，构建语义图像翻译网络模型；所述语义图像翻译网络模型包括：生成网络和判别网络；其中，生成网络包括编码器、解码器和特征图融合模块；编码器基于特征金字塔方式输出若干层次不同的特征图，所输出的各层次的特征图按照特征图尺度呈金字塔结构，且不同层次的特征图会包含不同的语义信息，定义编码器输出的特征图的层次数量为M；解码器包括M条解码分支，每一条解码分支的输入为编码器输出的一层特征图，各条解码分支用于对输入的特征图进行特征编码处理并输出相同尺寸的特征图；每条解码分支的网络结构相同，依次包括若干个残差网络和若干个反卷积运算模块；特征图融合模块的输入为各条解码分支的输出，用于将输入的M个特征图融合后转换为指定尺寸的生成图像；判别网络包括权重化分支、分块生成对抗网络分支和第二融合模块，其中，权重化分支的和分块生成对抗网络分支的输入均为特征图融合模块输出的生成图像；分块生成对抗网络分支用于按照指定的分块尺寸对输入图像进行分块，再基于各分块的内容生成对应的分块特征；权重化分支基于与分块生成对抗网络分支相同的分块方式对对输入图像进行分块，再基于各分块的内容生成各分块的权重；然后将权重化分支与分块生成对抗网络分支的输出通过哈达玛积运算后得到第二生成图像并输入第二融合模块，第二融合模块用于输出第二生成图像与生成网络的输入图像所对应的真实图像之间的真假判别结果；步骤2，基于训练图像集对语义图像翻译网络模型进行深度学习训练，当满足预置的训练结束条件时停止，基于训练后的生成网络得到语义图像翻译器；在语义图像翻译网络模型的深度学习训练过程中，生成网络和判别网络...

【专利技术属性】
技术研发人员：解梅，仲家栋，马欣，公衍翔，
申请(专利权)人：成都奇恩生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人