一种训练人体目标分割模型的方法技术

技术编号：39719846 阅读：6 留言：0更新日期：2023-12-17 23:26

本发明专利技术涉及一种训练人体目标分割模型的方法

全部详细技术资料下载

【技术实现步骤摘要】
一种训练人体目标分割模型的方法、人体目标分割方法及相关装置

[0001]本专利技术涉及目标分割
，尤其涉及一种训练人体目标分割模型的方法
、
人体目标分割方法及相关装置
。

技术介绍

[0002]在数字化时代，多媒体数字内容已成为人们生活中不可或缺的一部分，涵盖了文本
、
音频
、
图像和视频等
。
随着附带有摄像头和传感器的移动设备的普及，视频已成为互联网用户之间全新的沟通方式，例如视频会议
、
视频通话等线上形式的视频沟通方式
。
这种趋势使得一系列视频内容理解技术及其相关应用得以快速发展，实现了处于不同位置的用户之间通过通信设备和网络进行面对面的交谈
。
视频的人体分割是其中一项核心技术，并且在运动健康领域得到广泛的发展，要求能够实时地分割人物主体，并将人物主体从复杂的背景中分离出来，从而能够精准生成人物在不同背景下运动场景，增强娱乐性
。
然而在实际应用中，人物运动的场景比较复杂，在分割人物区域的同时，容易将一些复杂的背景图像也分割出来，导致存在明显的伪影情况，运动目标分割边界存在明显的抖动
。

技术实现思路

[0003]本专利技术实施例提供一种训练人体目标分割模型的方法
、
人体目标分割方法及相关装置，得到的人体目标分割模型能够准确地分割出人体目标，减少复杂背景的干扰和伪影的产生，降低人体目标分割边界的抖动性
。
>[0004]为解决上述技术问题，第一方面，本专利技术实施例提供一种训练人体目标分割模型的方法，人体目标分割网络包括背景编码网络和人体分割网络，所述人体分割网络包括编码模块
、
特征融合模块和解码模块，所述方法包括：
[0005]获取训练集，所述训练集包括多张包含人体目标的原始图像，所述原始图像具有所述人体目标对应的真实标签；
[0006]提取所述原始图像中的背景区域，基于所述背景区域获取背景图像集，其中，所述背景图像集为采用多个不同的尺寸对所述背景区域进行裁剪后，再进行模态迁移得到，所述模态迁移包括多个不同场景的图像迁移；
[0007]将所述背景图像集输入所述背景编码网络进行编码，获得背景特征图；
[0008]将所述原始图像输入所述编码模块进行编码，获得原始特征图；
[0009]将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合，获得融合特征图；
[0010]将所述融合特征图输入所述解码模块进行解码，获得所述人体目标对应的预测标签；
[0011]基于损失函数计算所述真实标签和所述预测标签之间的损失，并根据所述损失对所述人体目标分割网络进行迭代训练，直到所述人体目标分割网络收敛，得到所述人体目
标分割模型
。
[0012]在一些实施例中，所述提取所述原始图像中的背景区域，基于所述背景区域获取背景图像集，包括：
[0013]获取所述原始图像的人体关键点；
[0014]基于所述人体关键点，确定人体矩形框，提取所述人体矩形框外的图像作为背景区域；
[0015]采用多个不同的尺寸对所述背景区域进行裁剪，获得多个不同尺寸的背景图像；
[0016]基于多个不同场景的图像，对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，所述背景图像集包括多个尺寸
、
多个模态的背景图像
。
[0017]在一些实施例中，所述基于多个不同场景的图像，对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，包括：
[0018]基于多个不同场景的图像，根据第一公式分别对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，所述第一公式为：
[0019]M
bg
,S
bg
＝
F(
θ
(I
bg
))
[0020]M
style
,S
style
＝
F(
θ
(I
style
))
[0021][0022]其中，
θ
()
表示将图像转换为
LAB
格式，
I
style
表示不同场景下的图像，
I
bg
表示第一背景图像，
F()
是对
LAB
格式的图像提取均值和标准差，
M
bg
,S
bg
分别是
F(
θ
(I
bg
))
的均值和标准差，
M
style
,S
style
分别是
F(
θ
(I
style
))
的均值和标准差，为经过模态迁移后的背景图像
。
[0023]在一些实施例中，所述基于多个不同场景的图像，对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，还包括：
[0024]调整所述背景图像的显示参数
、
并进行高斯噪声模糊处理，其中，所述显示参数包括亮度
、
对比度和饱和度
。
[0025]在一些实施例中，所述将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合，获得融合特征图，包括：
[0026]将所述背景特征图和所述原始特征图输入所述特征融合模块，对所述原始特征图进行卷积运算，得到第一原始特征图；
[0027]对所述背景特征图进行扩张卷积运算，得到第一背景特征图；
[0028]将所述第一原始特征图和所述第一背景特征图进行残差连接，得到第一融合特征图；
[0029]将所述第一融合特征图和所述原始特征图进行连接，得到所述融合特征图
。
[0030]在一些实施例中，所述损失函数为：
[0031][0032]其中，
x
i
表示第
i
帧所述原始图像中人体目标的真实标签，表示第
i
帧所述原始图像中人体目标的预测标签，
L2
表示计算真实标签与预测标签的平均标准差损失，
L1
表示
计算真实标签与预测标签的平均绝对差损失，
∝
为常数
。
[0033]为解决上述技术问题，第二方面，本专利技术实施例提供一种人体目标分割方法，包括：
[0034]获取待处理图像；
[0035]将所述待处理图像输入人体目标分割模型，以获得所述待处理图像中人体目标的预测标签，其中，所述人体目标分割模型是采用上述任一项训练人体目标分割模型的方法训练得到的；
[0036]根据所述人体目标的预测标签从所述待处理图像中分割出人体目标图像
。
[0037]为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种训练人体目标分割模型的方法，其特征在于，人体目标分割网络包括背景编码网络和人体分割网络，所述人体分割网络包括编码模块
、
特征融合模块和解码模块，所述方法包括：获取训练集，所述训练集包括多张包含人体目标的原始图像，所述原始图像具有所述人体目标对应的真实标签；提取所述原始图像中的背景区域，基于所述背景区域获取背景图像集，其中，所述背景图像集为采用多个不同的尺寸对所述背景区域进行裁剪后，再进行模态迁移得到，所述模态迁移包括多个不同场景的图像迁移；将所述背景图像集输入所述背景编码网络进行编码，获得背景特征图；将所述原始图像输入所述编码模块进行编码，获得原始特征图；将所述背景特征图和所述原始特征图输入所述特征融合模块进行特征融合，获得融合特征图；将所述融合特征图输入所述解码模块进行解码，获得所述人体目标对应的预测标签；基于损失函数计算所述真实标签和所述预测标签之间的损失，并根据所述损失对所述人体目标分割网络进行迭代训练，直到所述人体目标分割网络收敛，得到所述人体目标分割模型
。2.
根据权利要求1所述的方法，其特征在于，所述提取所述原始图像中的背景区域，基于所述背景区域获取背景图像集，包括：获取所述原始图像的人体关键点；基于所述人体关键点，确定人体矩形框，提取所述人体矩形框外的图像作为背景区域；采用多个不同的尺寸对所述背景区域进行裁剪，获得多个不同尺寸的背景图像；基于多个不同场景的图像，对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，所述背景图像集包括多个尺寸
、
多个模态的背景图像
。3.
根据权利要求2所述的方法，其特征在于，所述基于多个不同场景的图像，对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，包括：基于多个不同场景的图像，根据第一公式分别对每一尺寸的所述背景图像进行模态迁移，获得背景图像集，所述第一公式为：
M
bg
,S
bg
＝
F(
θ
(I
bg
))M
style
,S
style
＝
F(
θ
(I
style
))
其中，
θ
()
表示将图像转换为
LAB
格式，
I
style
表示不同场景下的图像，
I
bg
表示背景图像，
F()
是对
LAB
格式的图像提取均值和标准差，
M
bg
,S
bg
分别是
F(
θ

【专利技术属性】
技术研发人员：敖阳，
申请(专利权)人：深圳数联康健智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人