当前位置: 首页 > 专利查询>扬州大学专利>正文

一种基于分离引导卷积的多模态人像分割方法技术

技术编号:33451530 阅读:19 留言:0更新日期:2022-05-19 00:35
本发明专利技术公开了一种基于分离引导卷积的多模态人像分割方法,包括通过译码器,将编码器输出的特征输入分离引导卷积中进行多尺度学习,输出人像的预测概率图,构建人像分割模型;将待检测的人物图像及其深度图输入到构建好的网络模型进行模型训练,对每一个侧输出的预测图加入深度监督,用交叉熵损失来计算人工标注图和预测的人像分割图像的差异,将这些误差反馈给网络以更新整个网络的模型参数;将需要测试的原始图像及其深度图像输入到模型中进行模型测试。本发明专利技术所述方法通过降低侧输出特征图像尺度,提升多尺度特征表达能力,从而加快推理计算速度,提升复杂场景下的检测准确性。性。性。

【技术实现步骤摘要】
一种基于分离引导卷积的多模态人像分割方法


[0001]本专利技术涉及计算机视觉与数字图像处理
,特别是一种基于分离引导卷积的多模态人像分割方法。

技术介绍

[0002]人像分割其实是将图像中的人物信息从原始图像中定位、分割出来,而多模态人像分割则是在普通的人像分割算法的基础上加入了深度图,深度图类似于灰度图,但它的每一个像素值都是传感器距离物体的实际距离。多模态人像分割对于高级语意信息的捕捉更加敏感,对人像分割准确性有很大的提高。
[0003]多模态人像分割是计算机视觉上的一种二值分割任务,目的是将人物从原始图像中分割出来,有利于后期的背景虚化或替换。随着深度学习的发展,人像分割在过去十几年中取得巨大进步,比如U型网络结构,其在卷积神经网络上结合多层信息的优良特性,越来越受到人们的关注。U型网络架构的网络模型较为复杂,导致计算效率不高。虽有其他的解决方案可以解决了计算效率低的问题,但由于深层特征图像的低分辨率,系统无法表现较好的性能。
[0004]传统的人像分割算法需要手动选取人物区域辅助其实现人像分割,这种算法不仅效率低本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分离引导卷积的多模态人像分割方法,其特征在于:包括,通过译码器,将编码器输出的特征输入分离引导卷积中进行多尺度学习,输出人像的预测概率图,构建人像分割模型;将待检测的人物图像及其深度图输入到构建好的网络模型进行模型训练,对每一个侧输出的预测图加入深度监督,用交叉熵损失来计算人工标注图和预测的人像分割图像的差异,将这些误差反馈给网络以更新整个网络的模型参数;将需要测试的原始图像及其深度图像输入到模型中进行模型测试。2.如权利要求1所述的基于分离引导卷积的多模态人像分割方法,其特征在于:所述编码器包括用于提取RGB特征的VGG骨干网络和一个用于提取深度互补特征的深度分支。3.如权利要求1或2所述的基于分离引导卷积的多模态人像分割方法,其特征在于:在设计所述编码器时,包括如下步骤:使用VGG

16的{conv2_2,conv3_3,conv4_3,conv5_3,pool5}作为5个侧输出单元,其侧输出结果可记为F
1rgb
、F
2rgb
、F
3rgb
、F
4rgb
、F
5rgb
,其通道参数分别为128、256、512、512、512,其分辨率分别为原图像大小的把VGG

16的第一个侧输出特征F
1rgb
作为编码器的第一个侧输出特征:E1=F
1rgb
,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,E1表示编码器的第一个侧输出特征;把VGG

16的第2~5个侧输出特征分别与深度分支中四个池化层的输出按通道维度进行拼接,得到编码器第2~5个输出特征:E
i
=Cat(F
irgb
,F
idep
),i∈{2,3,4,5}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中,E
i
表示编码器的第i个侧输出特征,Cat(
·
,
·
)表示沿通道维度进行拼接操作,i表示侧输出索引,表示深度分支中四个池化层输出的深度特征。4.如权利要求3所述的基于分离引导卷积的多模态人像分割方法,其特征在于:在设计所述深度分支时,包括如下步骤:在编码器中添加一条深度分支用于提取出深度图的互补特征,在这个分支中,先将输入的深度图像的分辨率缩小为原图像的一半,再将调整后的深度图像输入到四个级联的特征学习模块用于学习互补的深度特征;每个特征学习模块由一个卷积层和池化层构成,卷积层的参数为:{64,3
×
3}池化层的步长参数为2;将四个池化层的输出作为深度分支提取的深度特征,记为F
2dep
~F
5dep
,再将这些特征分别和主干网络相应的侧输出特征拼接在一起即得到编码器第2~5个输出特征,如式(2)所示。5.如权利要求4所述的基于分离引导卷积的多模态人像分割方法,其特征在于:在设计所述译码器时,包括如下步骤:先将每一个编码器的侧输出的特征通过一个参数为{64,1
×
1}的卷积层将通道数降到64,每一卷积层后都附有批量归一化层和非线性激活层,表示为:
式中,Conv1(
·
)表示{64,1
×
1}的卷积;将上述得到的特征D
i1
输入到分离引导卷积中进行多尺度学习。6.如权利要求5所述的基于分离引导卷积的多模态人像分割方法,其特征在于:将所述特征D
i1
输入到分离引导卷积中进行多尺度学习包括如下步骤:在第5个侧输出中,直接将特征D
51
送入分离引导卷积,得到特征D
52
,表示为:再将上述得到的特征D
52
输入到3个卷积层,卷积参数为{64,3
×
3},{64,3
×
3},{1,3
×
3},得到该侧输出的人像分割预测图P5,具体表示为:对于侧输出1~4,以侧输出4为例,先将侧输出5的预测图P5通过双线性插值操作进行上采样至与特征D
41
相同的分辨率,然后将其和特征D
41
一起送入分离引导卷积中,得到特征D<...

【专利技术属性】
技术研发人员:陈泽宇陈舒涵徐秀奇俞锦豪陆露汤浩楠
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1