基于循环神经网络的交互式抠图方法技术

技术编号：20427628 阅读：58 留言：0更新日期：2019-02-23 09:21

本发明专利技术提供了一种基于循环神经网络的交互式抠图方法，属于计算机技术领域。本发明专利技术针对现有数字抠图算法工作量需求大，对用户输入质量依赖性高的问题，设计了一种基于循环神经网络的交互式抠图方法。所设计的框架通过循环过程中人为检测信息区域减少无价值判断结果，在减少工作量的同时能够得到主流抠图方式的抠图结果。本发明专利技术有益效果如下：(1)交互式模型、(2)长短期记忆网络、(3)强化学习方法和(4)三维场景渲染。

全部详细技术资料下载

【技术实现步骤摘要】
基于循环神经网络的交互式抠图方法
本专利技术涉及一种基于循环神经网络的交互式抠图方法，属于计算机

技术介绍
抠图技术(ImageMatting)就是将图像中的前景从背景中分离出来的技术，该技术能够将人们需要的区域提取出来，便于对图像关键信息进行后续操作。图像抠图是计算机视觉方向的热门问题。现有的高性能数字抠图方法通常需要先验知识，即整张图片的三分图(Trimap)。但三分图的获取大大增加的工作量。对于少量基于交互输入的抠图方法。本专利技术旨在利用深度循环神经网络，探索一种基于交互，但限制用户交互方式的数字抠图方法，在减少工作量的同时达到令人满意的抠图效果。图像均是由前景和背景构成的，根据原始的图像合成公式，一幅图像C可以表示为其前景F与背景B的一个结合(每一个像素点同样的可以视为在其同一位置的一个前景值和一个背景值的合成)，即：Iz＝αzFz+(1-αz)B(1)其中z＝(x，y)代表输入图像I中像素的位置。α值alpha抠图结果，它的值在(0，1)之间，表示前景的不透明度。背景区域像素点α值为0，前景区域像素α值为1，介于前景和背景之间区域的细节部分，α值介于(0,1)之间，如果我们能够确定该区域α值，那么我们就能确定该像素点的颜色值，而这也是图像抠图技术需要解决的问题。(1)抠图方法①基于三元图的方法现有的高性能数字抠图方法通常需要先验知识，即整张图片的三分图(Trimap)。三分图由前景(白色)、背景(黑色)以及未知区域(灰色)组成。这些算法可分为两类，基于采样和基于传播的方法。基于采样的方法假设每个未知像素可以用一对已知的前景/背景像素来...

【技术保护点】
1.一种基于循环神经网络的交互式抠图方法，其特征在于，步骤如下：(1)训练集和测试集数据集包括肖像数据集，抠图基准数据集和渲染100数据集；肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据；抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像，以及8张没有三元图和抠图结果的图像；使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估；使用肖像数据集中的训练图像来训练网络结构；为避免过拟合，提出一个用于微调的渲染100数据集，该数据集有100张图像及其相应的真实数据；使用90张图像进行数据增强微调，并使用10张图像进行测试；在该数据集构建过程中，选择不同的3D模型作为前景对象，并使用自然图像作为背景；数据集图像使用物理渲染技术进行渲染；在训练和测试过程中，输入图像的大小调整为400×400像素；(2)网络结构网络结构包括特征提取网络、RNN单元、位置解码网络、位置解码网络、抠图结果求解器、联合编码网络六个部分；①特征提取网络使用去掉softmax层的VGG16网络作为特征提取模块，用于提取原始输入图像I的图像特征，通过VGG16网络，网络结构分...

【技术特征摘要】
1.一种基于循环神经网络的交互式抠图方法，其特征在于，步骤如下：(1)训练集和测试集数据集包括肖像数据集，抠图基准数据集和渲染100数据集；肖像数据集包含1700张训练图像、300张测试图像以及相应的真实数据；抠图基准数据集包括27张带有用户定义的三元图和抠图结果真实数据的图像，以及8张没有三元图和抠图结果的图像；使用肖像数据集的测试图像和抠图基准数据集中的27张图像进行评估；使用肖像数据集中的训练图像来训练网络结构；为避免过拟合，提出一个用于微调的渲染100数据集，该数据集有100张图像及其相应的真实数据；使用90张图像进行数据增强微调，并使用10张图像进行测试；在该数据集构建过程中，选择不同的3D模型作为前景对象，并使用自然图像作为背景；数据集图像使用物理渲染技术进行渲染；在训练和测试过程中，输入图像的大小调整为400×400像素；(2)网络结构网络结构包括特征提取网络、RNN单元、位置解码网络、位置解码网络、抠图结果求解器、联合编码网络六个部分；①特征提取网络使用去掉softmax层的VGG16网络作为特征提取模块，用于提取原始输入图像I的图像特征，通过VGG16网络，网络结构分析原始输入图像I并将其投射到低层特征空间：g0＝fExtra(I；θExtra)，其中θExtra是VGG16网络参数；②RNN单元使用长短期记忆网络将图像特征与当前建议区域对应的抠图结果间关系相融合，产生用于预测下一个建议区域的向量：vi+1＝frnn({gk}；θrnn)，其中k＝1,2,3…i，θrnn代表长短期记忆网络参数；网络结构分析当前建议区域及其生成抠图结果后，提出下一处建议区域；③位置解码网络位置解码网络将来自RNN单元的预测信息vi解码成二维坐标：li＝floc(vi；θloc)，其中i代表当前的第i次迭代，θloc代表位置解码网络参数；④抠图结果求解器累积生成的三元图si由当前的建议区域和所有之前的建议区域及各自对应的用户输入产生；将si和原始输入图像I共同传入抠图结果求解器来获得最新的抠图结果αi，αi＝fsolver(si；I)；...

【专利技术属性】
技术研发人员：陈少喆，杨鑫，尹宝才，张强，魏小鹏，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人