当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于场景识别的草图图像翻译方法技术

技术编号:26420155 阅读:59 留言:0更新日期:2020-11-20 14:15
本发明专利技术公开了一种基于场景识别的草图图像翻译方法。用户在所选取的场景图背景上交互式的逐步绘制草图,系统根据场景识别网络识别出的场景图类别对轮廓草图进行语义匹配得到对象类别,再根据对象类别与草图,利用部分草图形状完成网络与完整图像外观生成网络进行轮廓与外观合成,经过交互式的绘制最终生成需要的前景对象图像。本发明专利技术可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图,系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。

【技术实现步骤摘要】
一种基于场景识别的草图图像翻译方法
本专利技术涉及计算机视觉、图像处理
,具体涉及一种基于场景识别的草图图像翻译方法。
技术介绍
绘制草图是用于人类表达和传递信息的最自然与灵活的途径之一。近年来随着触屏设备的日益普及,在触屏上以寥寥数笔绘制草图来表达人类的视觉需求,已经成为重要的人机的交互方式。随着深度学习在图像处理领域的蓬勃发展,草图完成、草图识别、草图编辑和草图检索等一系列草图领域的技术应用得以飞速发展。草图-图像翻译是一类图像生成任务。结合用户界面,用户可以在目标域中利用徒手绘制的抽象草图快速创建图像。由于草图具有高度抽象性,且不同人绘制的草图在完成的准确度与风格上可能有很大的不同,因此草图-图像翻译问题仍面临着巨大的挑战。场景识别与分类问题是计算机视觉领域中的重要问题。场景由图像中的局部对象、全局布局和背景环境多级信息组成。随着深度学习技术的巨大进展,大规模的场景数据集基准(如Place2、Place365等)得以建立,基于深度学习的解决方案取代了基于原始手工提取特征的解决方案,从而更好地促进了场景识别与分类性能的提高。目前的现有技术之一是Ghosh等的《Interactivesketch&fill:Multiclasssketch-to-imagetranslation》所提出的SkinnyResnet网络结构,该方法根据用户输入的类条件,通过对用户逐步绘制的部分轮廓草图进行及时反馈,交互式的向用户推荐合理的草图完成轮廓并显示相应的合成图像,从而有效地帮助新手用户创建简单对象的图像。该方法将交互式图像生成的问题分为两个阶段:稀疏的用户草图对象形状的完成与完成形状草图的外观合成。但通常一幅图像中除了单个对象之外,可能还包含有其他多个对象、空间布局与背景环境信息,因此该方法的缺点是:1)生成的空白背景图片无法很好的适用于图像识别、图像检索等更进一步的图像任务;2)该方法需要用户点击类别按钮进行类条件选择,不能够根据背景图进行语义匹配自动进行选择。目前的现有技术之二是Gao等的《ImageGenerationfromFreehandSceneSketches》所提出的edgeGAN网络结构,该方法能够从徒手绘制的场景草图中可控的生成具有许多对象和关系的逼真图像,包括:1)通过草图分割模型首先分割识别出场景草图中所有的对象实例;2)由前景生成模型edgeGAN生成每个对象实例的图像内容,edgeGAN学习图象和图像边缘的联合嵌入,通过属性向量连接共享属性空间表示,从而将场景草图-图象生成任务转换为边缘图-图象生成任务,大大降低了收集场景草图数据的要求,并且可以应对用户具有不同绘画风格的挑战;3)将步骤2中生成的结果联合背景草图利用Pix2Pix模型生成最终的场景图象。缺点是难以如实地再现带有许多对象和关系的高质量复杂场景。由于不同的用户具有不同的草图绘画风格,现有的技术难以在完全满足用户需求的条件下生成逼真的场景图像。且由于用户主要关心的是图象中的前景部分,对于背景部分用户往往只画简单的几笔,使得场景草图-图象翻译任务仍然面临着巨大的挑战。
技术实现思路
本专利技术的目的是克服现有方法的不足,提出了一种基于场景识别的草图图像翻译方法。本专利技术解决的主要问题是,用户如何在需求的背景场景图上进行前景草图的绘制,使得前景草图的生成类别能够根据背景场景的内容语义自动进行匹配与控制。为了解决上述问题,本专利技术提出了一种基于场景识别的草图图像翻译方法,所述方法包括:构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像。优选地,所述构建对象数据集与场景数据集并进行语义匹配,具体为:从Place365数据集中提取其中的二十个类别构建成场景数据集;对象数据集与场景数据集各包括二十个类别的图像;对对象数据集中二十个类别的图像与场景数据集中二十个类别的图像进行一对一的语义匹配。优选地,所述部分草图形状完成网络,具体为:部分草图形状完成网络采用Pix2Pix结构,包含一个生成器Gs和一个判别器Ds;生成器Gs采用加入跳跃连接skipconnection的U-Net网络结构,包括:将所述对象类别连同所述用户描绘的部分草图作为网络输入,每个网络层都加入批标准化层BatchNormalization与线性整流函数ReLU,网络最后一层的输出采用双曲正切函数tanh作为激活函数;判别器Ds由PatchGAN组成,包括:每个网络层都加入批标准化层BatchNormalization与带泄露线性整流函数LeakyReLU,判别器将输入图片分为多块,对每一块都给出一个分数,最后对所有块的分数求平均。优选地,所述完整图像外观生成网络,具体为:完整图像外观生成网络包含一个生成器Gt和一个判别器Dt;生成器Gt采用改进的U-Net网络结构GU-Net,包括:GU-Net的前五个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,再利用GRU循环神经网络将卷积层的第五层级联特征图和与之相应成镜像关系的反卷积层特征图进行跳跃连接,每个网络层都加入标准化层InstanceNormalization与带泄露线性整流函数LeakyReLU,上采样Upsample和下采样Downsample均采用最近邻插值采样;判别器Dt包括:前三个卷积层得到的特征图分别与类条件向量级联,得到级联特征图,最后一个卷积层输出的特征图采用Sigmoid激活函数。本专利技术提出的一种基于场景识别的草图图像翻译方法,可以允许用户不用进行整个场景级别的草图绘制,只需在现有的场景背景图上描绘前景部分的对象草图,系统会自动进行与背景场景图语义匹配的对象完成,使得最终生成的图像质量与清晰度更高。附图说明图1是本专利技术实施例的一种基于场景识别的草图图像翻译方法的总体流程图;图2是本专利技术实施例的部分草图形状完成网络生成器Gs的结构图;...

【技术保护点】
1.一种基于场景识别的草图图像翻译方法,其特征在于,所述方法包括:/n构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;/n用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;/n利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;/n所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;/n用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像。/n...

【技术特征摘要】
1.一种基于场景识别的草图图像翻译方法,其特征在于,所述方法包括:
构建对象数据集与场景数据集并进行语义匹配,对对象数据集的原始图像进行边缘检测与简化从而得到完整对象边缘图像,之后进行随机遮挡掩模处理以模拟用户的部分草图输入从而得到不完整对象边缘图像,对场景数据集进行场景识别预训练产生OPlace365-Resnet50网络;
用户从所述场景数据集中选取场景背景图,然后利用所述OPlace365-Resnet50网络对所选取的场景背景图进行分类识别,得到场景类别;
利用所述完整对象边缘图像和所述不完整对象边缘图像作为数据集训练部分草图形状完成网络,利用所述对象数据集的原始图像和所述完整对象边缘图像作为数据集训练完整图像外观生成网络;
所述场景类别通过所述语义匹配得到对应的对象类别,之后所述部分草图形状完成网络根据对象类别和用户描绘的部分草图生成完整的草图轮廓,然后所述完整图像外观生成网络再根据对象类别和所生成的完整草图轮廓生成带有颜色和纹理的前景图像;
用户根据所述带有颜色和纹理的前景图像交互式的进行下一笔草图描绘,直到生成在所述用户选取的场景背景图上满足用户需求的前景对象图像,即为最终生成图像。


2.如权利要求1所述的一种基于场景识别的草图图像翻译方法,其特征在于,所述构建对象数据集与场景数据集并进行语义匹配,具体为:
从Place365数据集中提取其中的二十个类别构建成场景数据集;
对象数据集与场景数据集各包括二十个类别的图像;
对对象数据集中二十个类别的图像与场景数据集中二十个类别的图像进行一对一的语义匹配。


3.如权利要...

【专利技术属性】
技术研发人员:周凡陈茜茜苏卓林淑金王若梅
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1