一种基于改进GCNet的多实例人像抠图方法技术

技术编号：38833437 阅读：24 留言：0更新日期：2023-09-17 09:51

本发明专利技术属于图像处理技术领域，公开了一种基于改进GCNet的多实例人像抠图方法。该方法基于GCNet检测跟踪模型以及SegNet抠图模型实现。本发明专利技术针对GCNet检测模块和跟踪模块引入全局相关网络层来回归边界框的绝对坐标和大小，实现检测跟踪为每个实例生成矩形边界框，将实例ID信息传递给SegNet抠图模型进行抠图，最终可实现每个实例的抠图图像。同时，全局相关网络层有效减小了模型的大小，将全局信息编码到每个位置的特征中。当目标遮挡时，本发明专利技术不会将两个实例识别成一个实例，因而不会丢失目标信息。本发明专利技术在精度和稳定性能方面均有较大提升。大提升。大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进GCNet的多实例人像抠图方法

[0001]本专利技术属于图像处理
，尤其涉及一种基于改进GCNet的多实例人像抠图方法。

技术介绍

[0002]移动互联网技术的快速发展引发了多媒体行业的快速发展，数字图像处理领域也在不断创新与进步。在远程视频会议、短视频、AI换脸兴起的今天，越来越多的人们依赖手机等移动设备来拍摄视频和照片，人像分割技术也引起越来越多的关注。
[0003]实例分割的目的是区分实例，但它只能产生尖锐的对象边界，没有考虑到半透明性；软分割能够区分不同类之间的多个实例，具有实例感知特性，但不能处理同一类的实例。
[0004]传统的抠图方法旨在提取精确的alpha图，但缺乏实例感知。
[0005]如今，随着深度神经网络在人像抠图中的广泛应用，使得这一技术取得了显著的进步，在现有的语义抠图技术的基础上，对区分实例也提出了更高要求。
[0006]目前，人像实例抠图技术主要面临的挑战性在于目标遮挡与重叠、目标的尺度变化、环境背景复杂、高质量的自然图像抠图需花费大量的计算资源等。遮挡情况是目标检测一大挑战，这将导致失去目标的检测框，丢失检测目标影响抠图效果。
[0007]现有的基于给定trimap（静态图像抠图算法）或已知对象类别的区域分割方法无法区分实例，因此许多方法将检测跟踪同语义抠图结合起来，顺利的实现在多目标场景下对每个实例的抠图任务。
[0008]目前，有关人像抠图的方法可以按照先进行实例分割，如Mask R
‑
CNN（M...

【技术保护点】

【技术特征摘要】
1.一种基于改进GCNet的多实例人像抠图方法，其特征在于，包括如下步骤：步骤1.搭建多实例人像抠图模型；多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型；其中，GCNet检测跟踪模型用于接收视频图像输入，并对输入的视频图像中每个实例均进行加框处理，然后输出带有ID边界框的视频图像；GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块；GCNet检测模块包括分类分支以及回归分支两部分；GCNet检测模块的分类分支用于输出热力图作为置信映射；GCNet检测模块的回归分支则将热力图和特征图作为输入，计算目标实例的边界框；GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入，为每个历史轨迹输出跟踪置信度和边界框；SegNet抠图模型用于接收视频图像输入并获取特征，同时结合GCNet检测跟踪模型的输出，对每个实例生成alpha图，最终完成多目标的实例抠图；步骤2.利用训练集训练多实例人像抠图模型，将训练好的模型用于多实例人像抠图。2.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，所述步骤1中，GCNet检测模块中信号处理流程如下：特征图F和检测置信度热力图Y
d
进入回归分支，计算三个特征图Q、K、V；计算特征图Q、K之前加入位置编码P；对于特征图F通过两个线性变换计算特征图Q和特征图K；在进行目标检测时，使用同一帧图像中的K和Q；在进行目标跟踪时，使用上一帧图像中的Q和当前帧图像中的K；将检测和跟踪统一在同一个框架下，即为全局相关性；计算相关性特征图C后，计算最终的边界框B
d,i,j
=[x
i,j
，y
i,j
，h
i,j
，w
i,j
]；其中，d代表detection检测，x
i,j
表示框的顶部左侧点的水平坐标，y
i,j
表示框的顶部左侧点的垂直坐标，h
i,j
表示边界框的高，w
i,j
表示边界框的宽；GCNet直接回归的是目标边界框的绝对坐标和尺寸，计算公式如下所示；B
d,i,j
=W
·
BN([C
ij
V
ij
])；其中，W表示线性变换，V
ij
表示特征图F经过卷积得到的特征向量，C
ij
表示相关向量。3.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法，其特征在于，在GCNet检测模块中引入CBAM模块作为注意力机制；CBAM模块能够在空间维度和通道维度上进行操作，将GCNet检测模块中的分类分支产生的置信度Y
d
和主干网络提取的特征图F作为输入，生成特征向量；CBAM模块将通道注意力和空间注意力融合在一起；在GCNet检测模块中，将分类分支的置信度图Y
d
直接作为空间注意力。4.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，所述步骤1中，GCNet跟踪模块的处理流程如下：当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量送入GCNet跟踪模块，为每个历史轨迹输出一个跟踪置信度和边界框；其中，跟踪置信度用于表明跟踪目标仍旧在当前帧上的概率。5.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法，其特征在于，所述步骤1中，在GCNet检测模块的分类分支中，通过在每个实例的中心放置热力图来
标记每个实例，热力图为靠近中心的点提供高权重值，随着距离的增加，值下降。6.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，所述SegNet抠图模型包括编码器、循环解码器和深度引导滤波器DGF；信号在SegNet抠图模型中的处理流程如下：将GCNet检测跟踪模型输出的带有实例ID的特征送入编码器，编码器对单个帧进行操作，并提取1/2、1/4、1/8和1/16尺度的特征；SPPCSPC模块有四条分支分别使用池化层，将不同尺度的特征图调整到统一的大小，并且多次使用跳跃连接进行特征融合，将深层特征与浅层特征进行融合；在经过SPPCSPC模块后，瓶颈模块Bottleneck block对1/16规模大小的特征进行操作；上采样模块Upsamplin...

【专利技术属性】
技术研发人员：刘庆一，成锦，白培瑞，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人