一种基于改进GCNet的多实例人像抠图方法技术

技术编号:38833437 阅读:24 留言:0更新日期:2023-09-17 09:51
本发明专利技术属于图像处理技术领域,公开了一种基于改进GCNet的多实例人像抠图方法。该方法基于GCNet检测跟踪模型以及SegNet抠图模型实现。本发明专利技术针对GCNet检测模块和跟踪模块引入全局相关网络层来回归边界框的绝对坐标和大小,实现检测跟踪为每个实例生成矩形边界框,将实例ID信息传递给SegNet抠图模型进行抠图,最终可实现每个实例的抠图图像。同时,全局相关网络层有效减小了模型的大小,将全局信息编码到每个位置的特征中。当目标遮挡时,本发明专利技术不会将两个实例识别成一个实例,因而不会丢失目标信息。本发明专利技术在精度和稳定性能方面均有较大提升。大提升。大提升。

【技术实现步骤摘要】
一种基于改进GCNet的多实例人像抠图方法


[0001]本专利技术属于图像处理
,尤其涉及一种基于改进GCNet的多实例人像抠图方法。

技术介绍

[0002]移动互联网技术的快速发展引发了多媒体行业的快速发展,数字图像处理领域也在不断创新与进步。在远程视频会议、短视频、AI换脸兴起的今天,越来越多的人们依赖手机等移动设备来拍摄视频和照片,人像分割技术也引起越来越多的关注。
[0003]实例分割的目的是区分实例,但它只能产生尖锐的对象边界,没有考虑到半透明性;软分割能够区分不同类之间的多个实例,具有实例感知特性,但不能处理同一类的实例。
[0004]传统的抠图方法旨在提取精确的alpha图,但缺乏实例感知。
[0005]如今,随着深度神经网络在人像抠图中的广泛应用,使得这一技术取得了显著的进步,在现有的语义抠图技术的基础上,对区分实例也提出了更高要求。
[0006]目前,人像实例抠图技术主要面临的挑战性在于目标遮挡与重叠、目标的尺度变化、环境背景复杂、高质量的自然图像抠图需花费大量的计算资源等。遮挡情况是目标检测一大挑战,这将导致失去目标的检测框,丢失检测目标影响抠图效果。
[0007]现有的基于给定trimap(静态图像抠图算法)或已知对象类别的区域分割方法无法区分实例,因此许多方法将检测跟踪同语义抠图结合起来,顺利的实现在多目标场景下对每个实例的抠图任务。
[0008]目前,有关人像抠图的方法可以按照先进行实例分割,如Mask R

CNN(Mask R

CNN是Kaiming He等人在2017年提出的,可实现像素级别的图像实例分隔),再对其mask产生精细化alpha图实现实例抠图,也可以在语义抠图方法的基础上结合检测跟踪网络结构,使其能在多目标场景下实现实例抠图。Mask R

CNN是近年来广泛应用的简单通用且性能强大的两阶段网络模型,不断改进后其精细化了实例掩模,抠图准确率高。
[0009]然而,Mask R

CNN也存在一定局限性。比如在一定程度上严重依赖精确的目标检测,且得到的实例掩码分辨率较低,对于多实例的复杂场景,由于两阶段方法在前期需要单独设计网络生成大量候选区域,其推理时间与建议框的数量成正比,因此在推断速度上缓慢,仍然无法得到的同一类别重叠的不同实例个体且掩码分割细节不够平滑。
[0010]综上,密集目标的相互遮挡与重叠、目标的尺度变换引起的抠图误差、繁琐精细的数据标注耗费大量人力与时间等问题,都会对分割实例带来困难。
[0011]另外,人像抠图具有较高计算量,导致模型难以部署在计算资源有限的设备上。

技术实现思路

[0012]本专利技术的目的在于提出一种基于改进GCNet的多实例人像抠图方法,该方法由GCNet实现检测跟踪为每个实例生成矩形框,多实例图像经过SegNet抠图模型获得隐藏特
征,再利用矩形边界框的特征信息传入深度引导滤波器进行抠图,最终实现每个实例的抠图图像。
[0013]本专利技术为了实现上述目的,采用如下技术方案:一种基于改进GCNet的多实例人像抠图方法,包括如下步骤:步骤1. 搭建多实例人像抠图模型;搭建的多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型;其中,GCNet检测跟踪模型用于接收视频图像输入,并对视频图像中每个实例均进行加框处理,然后输出带有ID边界框的视频图像;GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块;其中,GCNet检测模块包括分类分支以及回归分支两部分;GCNet检测模块的分类分支用于输出热力图作为置信映射;GCNet检测模块的回归分支则将热力图和特征图作为输入,计算目标实例的边界框;GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入,为每个历史轨迹输出跟踪置信度和边界框;SegNet抠图模型用于接收视频图像输入并获取特征,同时结合GCNet检测跟踪模型的输出,对每个实例生成alpha图,最终完成多目标的实例抠图;步骤2. 利用训练集训练多实例人像抠图模型,将训练好的模型用于多实例人像抠图。
[0014]本专利技术具有如下优点:如上所述,本专利技术述及了一种基于改进GCNet(全局相关网络, Global Correlation Network)的多实例人像抠图方法,该方法基于GCNet检测跟踪模型以及SegNet抠图模型实现。本专利技术针对检测模块和跟踪模块采用共同的方式,即引入全局相关网络层来回归边界框的绝对坐标和大小,实现检测跟踪为每个实例生成矩形边界框,将实例ID信息传递给SegNet抠图模型进行抠图,最终可实现每个实例的抠图图像。同时,GCNet检测跟踪模型中的全局相关网络层有效减小了模型的大小,将全局信息编码到每个位置的特征中。当目标遮挡时,不会将两个实例识别成一个实例,从而导致丢失目标信息。SegNet抠图模型的深导滤波器可用于处理4K和HD这样的高分辨率视频,更好地拟合出边缘精确的分割结果。其中采用GhostNet进行特征提取,保留部分固有特征,通过固有特征的线性变换模拟生成相对冗余的特征,降低计算量的同时,保证了特征的多样性。本专利技术方法在精度和稳定性能方面均有较大提升。
附图说明
[0015]图1为本专利技术实施例中基于改进GCNet的多实例人像抠图方法的流程图。
[0016]图2为本专利技术实施例中实例抠图简要模型图。
[0017]图3为本专利技术实施例中GCNet检测跟踪模型的检测模块网络结构示意图。
[0018]图4为本专利技术实施例中GCNet检测跟踪模型的跟踪模块网络结构示意图。
[0019]图5为本专利技术实施例中SegNet抠图模块示意图。
[0020]图6为本专利技术实施例中SPPCSPC模块结构图。
具体实施方式
[0021]下面结合附图以及具体实施方式对本专利技术作进一步详细说明:本实施例述及了一种基于改进GCNet的多实例人像抠图方法,其包括如下步骤:步骤1. 搭建多实例人像抠图模型,如图2所示,本实施例中搭建的多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型。
[0022]通过引入GCNet检测跟踪模型,以改善有遮挡情况下的目标追踪效果。
[0023]GCNet检测跟踪模型引入了一种全局相关网络层,将全局信息编码到每个位置的特征中。通过线性变换和函数运算使其可以回归出相应位置的目标边界框的绝对大小,当进行目标检测和跟踪时可以利用同样的方式完成,以大大加快网络速度,降低网络复杂度。
[0024]其中,GCNet检测跟踪模型用于接收视频图像输入,并对视频图像中每个实例均进行加框处理,然后输出带有ID边界框的视频图像。
[0025]GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块;其中,GCNet检测模块的网络结构如图3所示,其包括分类分支以及回归分支两部分。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进GCNet的多实例人像抠图方法,其特征在于,包括如下步骤:步骤1.搭建多实例人像抠图模型;多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型;其中,GCNet检测跟踪模型用于接收视频图像输入,并对输入的视频图像中每个实例均进行加框处理,然后输出带有ID边界框的视频图像;GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块;GCNet检测模块包括分类分支以及回归分支两部分;GCNet检测模块的分类分支用于输出热力图作为置信映射;GCNet检测模块的回归分支则将热力图和特征图作为输入,计算目标实例的边界框;GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入,为每个历史轨迹输出跟踪置信度和边界框;SegNet抠图模型用于接收视频图像输入并获取特征,同时结合GCNet检测跟踪模型的输出,对每个实例生成alpha图,最终完成多目标的实例抠图;步骤2.利用训练集训练多实例人像抠图模型,将训练好的模型用于多实例人像抠图。2.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,GCNet检测模块中信号处理流程如下:特征图F和检测置信度热力图Y
d
进入回归分支,计算三个特征图Q、K、V;计算特征图Q、K之前加入位置编码P;对于特征图F通过两个线性变换计算特征图Q和特征图K;在进行目标检测时,使用同一帧图像中的K和Q;在进行目标跟踪时,使用上一帧图像中的Q和当前帧图像中的K;将检测和跟踪统一在同一个框架下,即为全局相关性;计算相关性特征图C后,计算最终的边界框B
d,i,j
=[x
i,j
,y
i,j
,h
i,j
,w
i,j
];其中,d代表detection检测,x
i,j
表示框的顶部左侧点的水平坐标,y
i,j
表示框的顶部左侧点的垂直坐标,h
i,j
表示边界框的高,w
i,j
表示边界框的宽;GCNet直接回归的是目标边界框的绝对坐标和尺寸,计算公式如下所示;B
d,i,j
=W
·
BN([C
ij
V
ij
]);其中,W表示线性变换,V
ij
表示特征图F经过卷积得到的特征向量,C
ij
表示相关向量。3.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法,其特征在于,在GCNet检测模块中引入CBAM模块作为注意力机制;CBAM模块能够在空间维度和通道维度上进行操作,将GCNet检测模块中的分类分支产生的置信度Y
d
和主干网络提取的特征图F作为输入,生成特征向量;CBAM模块将通道注意力和空间注意力融合在一起;在GCNet检测模块中,将分类分支的置信度图Y
d
直接作为空间注意力。4.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,GCNet跟踪模块的处理流程如下:当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量送入GCNet跟踪模块,为每个历史轨迹输出一个跟踪置信度和边界框;其中,跟踪置信度用于表明跟踪目标仍旧在当前帧上的概率。5.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述步骤1中,在GCNet检测模块的分类分支中,通过在每个实例的中心放置热力图来
标记每个实例,热力图为靠近中心的点提供高权重值,随着距离的增加,值下降。6.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法,其特征在于,所述SegNet抠图模型包括编码器、循环解码器和深度引导滤波器DGF;信号在SegNet抠图模型中的处理流程如下:将GCNet检测跟踪模型输出的带有实例ID的特征送入编码器,编码器对单个帧进行操作,并提取1/2、1/4、1/8和1/16尺度的特征;SPPCSPC模块有四条分支分别使用池化层,将不同尺度的特征图调整到统一的大小,并且多次使用跳跃连接进行特征融合,将深层特征与浅层特征进行融合;在经过SPPCSPC模块后,瓶颈模块Bottleneck block对1/16规模大小的特征进行操作;上采样模块Upsamplin...

【专利技术属性】
技术研发人员:刘庆一成锦白培瑞
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1