一种基于并行网络构架的图像语义标签纠错方法技术

技术编号:18445613 阅读:29 留言:0更新日期:2018-07-14 10:39
本发明专利技术中提出的一种基于并行网络构架的图像语义标签纠错方法,其主要内容包括:标签传播网络、标签替换网络、融合网络、并行网络构架和训练,其过程为,给定一个输入RGB图像和一个初始分割概率图,采用带有跳跃连接的编码器‑解码器结构表示位移估计,计算改进的分割概率图,训练标签更换网络,基于初始分割概率图来预测新的分割概率图,融合网络将两个并行分支的输出结合起来联合训练整个架构,使用共享编码器来学习两个子任务的特征,生成最终的分割结果。本发明专利技术提出了标签传播网络和标签替换网络,两个网络并行运行而不是按顺序运行,可以大大缩短推理时间,同时提高了解析性能和图像语义标签纠错的能力。

An image semantic tag correction method based on parallel network architecture

An image semantic label error correction method based on parallel network architecture is proposed in this invention. Its main contents include label propagation network, label replacement network, fusion network, parallel network architecture and training. The process is that a given input RGB image and an initial partition probability graph are given, and a jump connection is used. The decoder structure represents the displacement estimation, calculates the improved segmentation probability graph, trains the label replacement network, forecasts the new segmentation probability graph based on the initial segmentation probability graph, and combines the output of the two parallel branches together to train the entire architecture, so that the shared encoder is used to learn the two sub tasks. The final segmentation result is generated. The invention proposes a label propagation network and a label replacement network. The two networks run in parallel instead of running in sequence, which can greatly shorten the reasoning time and improve the ability of the analytic performance and the error correction of the image semantic labels.

【技术实现步骤摘要】
一种基于并行网络构架的图像语义标签纠错方法
本专利技术涉图像分割领域,尤其是涉及了一种基于并行网络构架的图像语义标签纠错方法。
技术介绍
随着互联网的普及与图像处理设备的快速发展,网络图片和视频也正以几何级的数量增长,如何有效地使用和处理这些图片和视频也成为一个急需解决的问题。逐像素语义图像标签是许多应用程序中重要而又具有挑战性的任务,其可以应用于室内导航、人机交互、图像搜索引擎以及虚拟现实或增强现实系统等。具体地,在时尚服装设计领域,通过对人体的语义分割可以定位出人脸、身体部位、服装等各种信息,从而帮助用户在互联网购物过程中实现自动试衣、自助购买等功能;在车辆自动驾驶领域,通过对车体前方场景的语义分割可以精确定位道路、车体和行人等场景或物体信息,从而提升自动驾驶的安全性;语义图像标签还可以实现在无人机着陆点的判断和在穿戴式设备中的诸多应用。然而,传统的方法在残差校正阶段存在难以应用于离散密集标记任务的问题,如语义分割等。本专利技术提出了一种基于并行网络构架的图像语义标签纠错方法,给定一个输入RGB图像和一个初始分割概率图,采用带有跳跃连接的编码器-解码器结构表示位移估计,计算改进的分割概率图,训练标签替换网络,基于初始分割概率图来预测新的分割概率图,融合网络将两个并行分支的输出结合起来以联合训练整个架构,使用共享编码器来学习两个子任务的特征,生成最终的分割结果。本专利技术提出了标签传播网络和标签替换网络,两个网络并行运行而不是按顺序运行,可以大大缩短推理时间,同时提高了解析性能和图像语义标签纠错的能力。
技术实现思路
针对在残差校正阶段难以应用于离散密集标记任务的问题,本专利技术的目的在于提供一种基于并行网络构架的图像语义标签纠错方法,给定一个输入RGB图像和一个初始分割概率图,采用带有跳跃连接的编码器-解码器结构表示位移估计,计算改进的分割概率图,训练标签更换网络,基于初始分割概率图来预测新的分割概率图,融合网络将两个并行分支的输出结合起来联合训练整个架构,使用共享编码器来学习两个子任务的特征,生成最终的分割结果。为解决上述问题,本专利技术提供一种基于并行网络构架的图像语义标签纠错方法,其主要内容包括:(一)标签传播网络;(二)标签替换网络;(三)融合网络;(四)并行网络构架;(五)训练。其中,所述的图像语义标签纠错方法,给定一个输入RGB图像Is和一个初始分割概率图Ss,提出一种端到端的纠错方法,它建立在三个网络上,即标签传播网络、标签替换网络和融合网络。其中,所述的标签传播网络,建议估算每个像素(即2D位移场)的位移矢量(Δx,Δy),以便从邻近像素传播标签;遵循变形层应用估计的位移,以便获得改进的分割概率图;采用带有跳跃连接的编码器-解码器结构表示位移估计,表示为标签传播网络E;综上所述,给定输入图像Is和初始分割概率图Ss,通过预测的2D位移场对Ss进行重新采样来训练网络E,计算改进的分割概率图Sprop;它可以表示为最小化Sprop和标定好的真实分割图Sgt之间的损失函数:其中,是训练数据集,E(·)是指其参数用于优化的标签传播网络,表示交叉熵损失;标签传播网络E旨在利用来自附近像素的概率分布的上下文信息来预测一对位移矢量(Δx,Δy)。进一步地,所述的位移矢量,每个方向有一个位移矢量,使像素的概率分布可以相对于其邻近像素重新估计;其中,(Δx,Δy)表示模型采样概率分布的位移向量;对于Ss中的每个像素(xi,yi),传播后的坐标与下式相关:最后,根据估计的位移矢量对初始概率图Ss进行扭曲,以生成精细化的概率图Sprop;关于翘曲操作,使用双线性抽样内核,以允许进行端到端的训练:其中,表示输出中处的第i个像素的值,是输入Ss中处的像素的邻域;可以有效计算位移估计的参数。其中,所述的标签替换网络,标签传播网络E能够通过将可能正确的标签传播到其邻域来纠正分割错误;但是,当一个区域中的几乎所有像素最初都有错误的标签时,它无法纠正标签;为了处理这种情况,提出将输入Is和初始分割概率图Ss两者馈送到完全卷积的标签替换网络C中,直接重新计算新的分割概率图Srepl;网络重新估计每个像素的概率向量,但这次是基于其外观和其邻居的概率分布;遵循与标签传播网络相同的编码器-解码器架构,用卷积层替换标签传播网络的最后一层,以输出新的分割概率图。进一步地,所述的概率图,给定图像Is及其对应的初始分割概率图Ss,训练标签更换网络C,目的是基于初始的Ss预测新的分割概率图Srepl;该任务可以表述为最小化新产生的分割图Srepl与相应的标定好的真实标签Sgt之间的交叉熵损失:损失函数如上式所示。其中,所述的融合网络,标签传播和标签替换网络并行工作,专门用于纠正不同类型的错误;一方面,标签传播网络E考虑到附近的像素及其对应的类别概率,基于外观相似度传播概率向量;另一方面,标签替换网络C逐个像素地重新估计类别标签;因此使用融合网络M将这两个并行分支的输出结合起来,并联合训练整个架构;使用共享编码器来学习两个子任务的特征。进一步地,所述的学习两个子任务的特征,使用共享编码器来学习两个子任务的特征,即标签传播和标签替换网络,并且减少了参数的总数量以进行优化;网络以分支的方式分成两个不同的解码器,一个用于预测位移,另一个用于直接预测新的标签;在最后阶段,结合两个分支的中间结果,加入融合网络M,将这些中间结果作为输入,预测一个掩模m,生成最终的分割结果;然后将最终结果计算为像素级的两个分支输出的加权平均值:Sfuse=m⊙Sprop+(1-m)⊙Srepl(5)其中,Sprop和Srepl是两个分支的中间分割概率图,⊙表示元素乘法;整体损失函数如上式所示。其中,所述的并行网络构架,标签传播网络和标签替换网络的共享基于完全卷积编码器-解码器的基础架构;对于编码器,有四个模块,每个模块包含两个内核大小为3×3的卷积层和最大池层;对于解码器,有三个模块包含一个双线性上采样层和两个内核大小为3×3的卷积层;在三个模块的开头添加三个跳转连接,以整合不同的信息;融合网络预测一个掩码来结合标签传播网络和标签替换网络;它具有三个内核大小为3×3的卷积层和另一个用于生成单通道掩码的卷积层。其中,所述的训练,训练时初始化网络中的权重;采用ADAM优化器学习网络参数,学习率为0.0001,β1=0.9,β2=0.999,批量大小为8;整个训练过程包括大约20000次迭代;采用随机镜像增强数据,将所有数据集的大小调整在0.5到1.5之间,根据每个数据集裁剪到一个固定的大小;然后将输入图像归一化为[-1,1],并使用Softmax操作应用相应的初始分割概率图。附图说明图1是本专利技术一种基于并行网络构架的图像语义标签纠错方法的系统框架图。图2是本专利技术一种基于并行网络构架的图像语义标签纠错方法的流程示意图。图3是本专利技术一种基于并行网络构架的图像语义标签纠错方法的网络构架。图4是本专利技术一种基于并行网络构架的图像语义标签纠错方法的标签传播网络。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本专利技术作进一步详细说明。图1是本专利技术一种基于并行网络构架的图像语义标签纠错方法的系统框架图。主要包括标签传播网络、标本文档来自技高网...

【技术保护点】
1.一种基于并行网络构架的图像语义标签纠错方法,其特征在于,主要包括标签传播网络(一);标签替换网络(二);融合网络(三);并行网络构架(四);训练(五)。

【技术特征摘要】
1.一种基于并行网络构架的图像语义标签纠错方法,其特征在于,主要包括标签传播网络(一);标签替换网络(二);融合网络(三);并行网络构架(四);训练(五)。2.基于权利要求书1所述的图像语义标签纠错方法,其特征在于,给定一个输入RGB图像Is和一个初始分割概率图Ss,提出一种端到端的纠错方法,它建立在三个网络上,即标签传播网络、标签替换网络和融合网络。3.基于权利要求书1所述的标签传播网络(一),其特征在于,建议估算每个像素(即2D位移场)的位移矢量(Δx,Δy),以便从邻近像素传播标签;遵循变形层应用估计的位移,以便获得改进的分割概率图;采用带有跳跃连接的编码器-解码器结构表示位移估计,表示为标签传播网络E;综上所述,给定输入图像Is和初始分割概率图Ss,通过预测的2D位移场对Ss进行重新采样来训练网络E,计算改进的分割概率图Sprop;它可以表示为最小化Sprop和标定好的真实分割图Sgt之间的损失函数:其中,是训练数据集,E(·)是指其参数用于优化的标签传播网络,表示交叉熵损失;标签传播网络E旨在利用来自附近像素的概率分布的上下文信息来预测一对位移矢量(Δx,Δy)。4.基于权利要求书3所述的位移矢量,其特征在于,每个方向有一个位移矢量,使像素的概率分布可以相对于其邻近像素重新估计;其中,(Δx,Δy)表示模型采样概率分布的位移向量;对于Ss中的每个像素(xi,yi),传播后的坐标与下式相关:最后,根据估计的位移矢量对初始概率图Ss进行扭曲,以生成精细化的概率图Sprop;关于翘曲操作,使用双线性抽样内核,以允许进行端到端的训练:其中,表示输出中处的第i个像素的值,是输入Ss中处的像素的邻域;可以有效计算位移估计的参数。5.基于权利要求书1所述的标签替换网络(二),其特征在于,标签传播网络E能够通过将可能正确的标签传播到其邻域来纠正分割错误;但是,当一个区域中的几乎所有像素最初都有错误的标签时,它无法纠正标签;为了处理这种情况,提出将输入Is和初始分割概率图Ss两者馈送到完全卷积的标签替换网络C中,直接重新计算新的分割概率图Srepl;网络重新估计每个像素的概率向量,但这次是基于其外观和其邻居的概率分布;遵循与标签传播网络相同的编码器-解码器架构,用卷积层替换标签传播网络的最后一层,以输出新的分割概率图。6.基于权利要求书5所述的概率图,其特征在于,给定图像...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1