基于循环神经网络的交互式抠图方法技术

技术编号:20427628 阅读:58 留言:0更新日期:2019-02-23 09:21
本发明专利技术提供了一种基于循环神经网络的交互式抠图方法,属于计算机技术领域。本发明专利技术针对现有数字抠图算法工作量需求大,对用户输入质量依赖性高的问题,设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果,在减少工作量的同时能够得到主流抠图方式的抠图结果。本发明专利技术有益效果如下:(1)交互式模型、(2)长短期记忆网络、(3)强化学习方法和(4)三维场景渲染。

【技术实现步骤摘要】
基于循环神经网络的交互式抠图方法
本专利技术涉及一种基于循环神经网络的交互式抠图方法,属于计算机

技术介绍
抠图技术(ImageMatting)就是将图像中的前景从背景中分离出来的技术,该技术能够将人们需要的区域提取出来,便于对图像关键信息进行后续操作。图像抠图是计算机视觉方向的热门问题。现有的高性能数字抠图方法通常需要先验知识,即整张图片的三分图(Trimap)。但三分图的获取大大增加的工作量。对于少量基于交互输入的抠图方法。本专利技术旨在利用深度循环神经网络,探索一种基于交互,但限制用户交互方式的数字抠图方法,在减少工作量的同时达到令人满意的抠图效果。图像均是由前景和背景构成的,根据原始的图像合成公式,一幅图像C可以表示为其前景F与背景B的一个结合(每一个像素点同样的可以视为在其同一位置的一个前景值和一个背景值的合成),即:Iz=αzFz+(1-αz)B(1)其中z=(x,y)代表输入图像I中像素的位置。α值alpha抠图结果,它的值在(0,1)之间,表示前景的不透明度。背景区域像素点α值为0,前景区域像素α值为1,介于前景和背景之间区域的细节部分,α值介于(0,1)之间,如果我们能够确定该区域α值,那么我们就能确定该像素点的颜色值,而这也是图像抠图技术需要解决的问题。(1)抠图方法①基于三元图的方法现有的高性能数字抠图方法通常需要先验知识,即整张图片的三分图(Trimap)。三分图由前景(白色)、背景(黑色)以及未知区域(灰色)组成。这些算法可分为两类,基于采样和基于传播的方法。基于采样的方法假设每个未知像素可以用一对已知的前景/背景像素来代表。基于传播的方法使用相邻像素亲和力,将α值从已知区传播到未知区域。NingXu等人应用深度卷积编码-解码网络,将图像和三元图作为输入,并输出抠图结果。试验表明,随着三元图质量下降,输出抠图结果的质量大幅下降。另一方面,三元图获取需要较大工作量,使用三原图预估能够减少三元图获取过程的工作量,但要求图像前景明显,因此不能在实践中广泛应用。②基于输入笔画的方法基于用户自由笔画是一种用户友好型的获取前景/背景信息的方式,需要用户图像在前景及背景部分画几处笔画。然而,该方法产生的抠图结果质量高度依赖于用户输入的笔画与抠图算法设定之间的适应程度。此外,输入适当的笔画需要掌握抠图算法的专业知识才能得到高质量的抠图效果。③交互式模型交互式模型应用在许多问题之中,如分类问题,图像分割以及曲线结构描绘等。微软实验室和美国奥斯汀大学提出一种交互式选择过程,通过用户判断来选择代表性图片,并传递到剩余未标记图片,用于自动分割。交互式模型应用目的虽然不同,但其核心思路相同,即让用户参与循环之中以提供具有代表性的标签。在本文中,我们提出了第一个用于抠图算法的主动式模型,检测用户标注的信息区域。(2)长短期记忆网络循环神经网络(RecurrentNeuralNetwork)能够处理序列类型数据。长短期记忆网络(LongShortTermMemory)是一种特殊的循环神经网络,可以学习长期依赖的信息。长短期记忆网络包含一种“门”结构,能够去除或增加信息到细胞状态。一个网络模块拥有三个“门”来保护和控制细胞的状态。首先决定从细胞中丢弃哪些信息,之后确定被存放的新信息,最后将旧状态经过处理得到变化后的新状态。根据长短期记忆网络的特点,本专利技术将引入该网络模块,通过已有的信息区域和生成抠图结果的编码信息,并结合视觉特征,为用户建议下一处信息区域。(3)强化学习策略强化学习将学习看作试探评价过程,通过与环境进行交互获得的奖赏来指导行为,使智能体(Agent)得到最大的奖赏。本方案需要以真实数据作为监督,根据预测值与真实值的差距调节网络参数并实现收敛。然而,由于本方案引入了用户交互的过程,这使得导数梯度的传导遭到了破坏。为继续传播这一关系,本方案引入了强化学习的策略。当前步的用户信息标记图和求得的抠图预测为当前步的状态;下一步用户将在某一位置给定下一个标签为当前步的动作;给定这个标签后对抠图预测结果的影响作为奖励函数。
技术实现思路
本专利技术针对现有数字抠图算法工作量需求大,对用户输入质量依赖性高的问题,设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果,在减少工作量的同时能够得到主流抠图方式的抠图结果。本专利技术的技术方案:基于循环神经网络的交互式抠图方法,步骤如下:(1)训练集和测试集数据集包括肖像数据集,抠图基准数据集和渲染100数据集;肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据;抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像,以及8张没有三元图和抠图结果的图像;使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估;使用肖像数据集中的训练图像来训练网络结构;为避免过拟合,提出一个用于微调的渲染100数据集,该数据集有100张图像及其相应的真实数据;使用90张图像进行数据增强微调,并使用10张图像进行测试;在该数据集构建过程中,选择不同的3D模型作为前景对象(例如兔子,毛球和金属球体等),并使用自然图像作为背景;数据集图像使用物理渲染技术(PhysicallyBasedRenderingTechnology)进行渲染。在训练和测试过程中,输入图像的大小调整为400×400像素;(2)网络结构首先将输入图像送到特征提取网络以提取图像特征g0;然后将g0被送到RNN单元以提供用于预测的“视觉”信息,然后由位置解码网络解码以获得第一次建议的信息区域(表示为2D坐标l1)。在每次建议的信息区域之后的迭代中,本专利技术中所设计的网络结构会要求用户回答该区域属于前景层还是背景层。基于用户给出的回答反馈,该推荐区域内的每个像素分配对应标签,以此方法可以生成一个累积三元图。抠图结果求解器将输入图像和累积的三元图作为输入并计算一个抠图结果,然后将上一次迭代建议区域的2D坐标反馈给联合编码网络,对上一次迭代建议区域与生成抠图结果之间的关系进行编码。最后,RNN单元使用区域-抠图结果间关系的编码信息和初始视觉特征信息为用户建议下一个信息区域。提出的网络从用户反馈中学习,并且采用强化学习策略为每个检测到的信息区域分配训练奖励。①特征提取网络使用去掉softmax层的VGG16网络作为特征提取模块,用于提取原始输入图像I的图像特征,通过VGG16网络,网络结构分析原始输入图像I并将其投射到低层特征空间:g0=fExtra(I;θExtra),其中θExtra是VGG16网络参数;②RNN单元使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合,产生用于预测下一个建议区域的向量:vi+1=frnn({gk};θrnn),其中k=1,2,3…i,θrnn代表长短期记忆网络参数;网络结构分析当前建议区域及其生成抠图结果后,提出下一处建议区域;③位置解码网络位置解码网络将来自RNN单元的预测信息vi解码成二维坐标:li=floc(vi;θloc),其中i代表当前的第i次迭代,θloc代表位置解码网络参数;④抠图结果求解器累积生成的三元图si由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生;将本文档来自技高网
...

【技术保护点】
1.一种基于循环神经网络的交互式抠图方法,其特征在于,步骤如下:(1)训练集和测试集数据集包括肖像数据集,抠图基准数据集和渲染100数据集;肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据;抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像,以及8张没有三元图和抠图结果的图像;使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估;使用肖像数据集中的训练图像来训练网络结构;为避免过拟合,提出一个用于微调的渲染100数据集,该数据集有100张图像及其相应的真实数据;使用90张图像进行数据增强微调,并使用10张图像进行测试;在该数据集构建过程中,选择不同的3D模型作为前景对象,并使用自然图像作为背景;数据集图像使用物理渲染技术进行渲染;在训练和测试过程中,输入图像的大小调整为400×400像素;(2)网络结构网络结构包括特征提取网络、RNN单元、位置解码网络、位置解码网络、抠图结果求解器、联合编码网络六个部分;①特征提取网络使用去掉softmax层的VGG16网络作为特征提取模块,用于提取原始输入图像I的图像特征,通过VGG16网络,网络结构分析原始输入图像I并将其投射到低层特征空间:g0=fExtra(I;θExtra),其中θExtra是VGG16网络参数;②RNN单元使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合,产生用于预测下一个建议区域的向量:vi+1=frnn({gk};θrnn),其中k=1,2,3…i,θrnn代表长短期记忆网络参数;网络结构分析当前建议区域及其生成抠图结果后,提出下一处建议区域;③位置解码网络位置解码网络将来自RNN单元的预测信息vi解码成二维坐标:li=floc(vi;θloc),其中i代表当前的第i次迭代,θloc代表位置解码网络参数;④抠图结果求解器累积生成的三元图si由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生;将si和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果αi,αi=fsolver(si;I);所述的抠图结果求解器为用于实时alpha抠图结果的共享采样方法;⑤联合编码网络当位置解码网络生成二维坐标后,使用联合编码网络将该二维坐标与对应的抠图结果相融合,建立当前的建议区域与对应的抠图结果之间的关系;该关系编码为:gi=fiEnc(li,αi;θjEnc),其中θjEnc代表位置解码网络参数;(3)序列的强化学习策略网络结构的抽象函数F对网络的整体参数Θ(其中Θ是上述各部分网络参数θExtraθrnnθlocθjEnc的集合)导数如式(2):...

【技术特征摘要】
1.一种基于循环神经网络的交互式抠图方法,其特征在于,步骤如下:(1)训练集和测试集数据集包括肖像数据集,抠图基准数据集和渲染100数据集;肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据;抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像,以及8张没有三元图和抠图结果的图像;使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估;使用肖像数据集中的训练图像来训练网络结构;为避免过拟合,提出一个用于微调的渲染100数据集,该数据集有100张图像及其相应的真实数据;使用90张图像进行数据增强微调,并使用10张图像进行测试;在该数据集构建过程中,选择不同的3D模型作为前景对象,并使用自然图像作为背景;数据集图像使用物理渲染技术进行渲染;在训练和测试过程中,输入图像的大小调整为400×400像素;(2)网络结构网络结构包括特征提取网络、RNN单元、位置解码网络、位置解码网络、抠图结果求解器、联合编码网络六个部分;①特征提取网络使用去掉softmax层的VGG16网络作为特征提取模块,用于提取原始输入图像I的图像特征,通过VGG16网络,网络结构分析原始输入图像I并将其投射到低层特征空间:g0=fExtra(I;θExtra),其中θExtra是VGG16网络参数;②RNN单元使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合,产生用于预测下一个建议区域的向量:vi+1=frnn({gk};θrnn),其中k=1,2,3…i,θrnn代表长短期记忆网络参数;网络结构分析当前建议区域及其生成抠图结果后,提出下一处建议区域;③位置解码网络位置解码网络将来自RNN单元的预测信息vi解码成二维坐标:li=floc(vi;θloc),其中i代表当前的第i次迭代,θloc代表位置解码网络参数;④抠图结果求解器累积生成的三元图si由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生;将si和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果αi,αi=fsolver(si;I);...

【专利技术属性】
技术研发人员:陈少喆杨鑫尹宝才张强魏小鹏
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1