一种训练目标分割模型的方法技术

技术编号:39787529 阅读:9 留言:0更新日期:2023-12-22 02:26
本发明专利技术涉及一种训练目标分割模型的方法,包括:获取训练集,训练集包括多帧连续的原始图像,各帧原始图像均标注有目标的真实标签;将训练集中的原始图像输入卷积神经网络,获得每帧原始图像的多个尺度的特征图;将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入门控循环单元网络,以获得融合特征图;将当前帧原始图像的多个尺度的特征图和融合特征图输入特征融合解码网络,获得目标的预测标签;基于损失函数计算真实标签和预测标签之间的损失,并根据损失对目标分割模型进行迭代训练,直到目标分割模型收敛,得到训练后的目标分割模型

【技术实现步骤摘要】
一种训练目标分割模型的方法、目标分割方法及相关装置


[0001]本专利技术涉及视频内容理解
,尤其涉及一种训练目标分割模型的方法

目标分割方法及相关装置


技术介绍

[0002]在数字化时代,各种多媒体数字内容,例如文本

音频

图像和视频等都充斥着人类的日常生活

随着附带有摄像头和传感器的各类移动设备的普及,视频已成为互联网用户之间全新的沟通方式,例如视频会议

视频通话等线上形式的视频沟通方式

这种趋势使得一系列视频内容理解技术及其相关应用得以蓬勃发展,实现了处于不同位置的用户之间通过通信设备和网络进行面对面的交谈

视频的人体分割是其中一项核心技术,并且在运动健康领域得到广泛的发展,要求能够实时地分割人物主体,并将人物主体从复杂的背景中分离出来,从而能够精准地生成人物在不同背景下的运动场景,增强娱乐性

然而在实际应用中,人物运动的场景比较复杂,受到复杂背景的干扰,在分割人物区域的同时,容易将一些复杂的背景图像也分割出来,导致存在明显的伪影情况,目标分割不稳定,用户体验较差


技术实现思路

[0003]本专利技术实施例提供一种训练目标分割模型的方法

目标分割方法及相关装置,得到的目标分割模型能够准确地分割出目标,减少复杂背景的干扰和伪影的产生,降低目标分割边界的抖动性

[0004]为解决上述技术问题,第一方面,本专利技术实施例提供一种训练目标分割模型的方法,所述目标分割模型包括卷积神经网络

门控循环单元网络和特征融合解码网络,所述方法包括:
[0005]获取训练集,所述训练集包括多帧连续的原始图像,各帧所述原始图像均标注有目标的真实标签;
[0006]将所述训练集中的原始图像输入所述卷积神经网络,获得每帧所述原始图像的多个尺度的特征图;
[0007]将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络,以融合所述第一特征图和所述第二特征图,获得融合特征图,所述第一特征图和所述第二特征图均为对应的原始图像的尺度最小的特征图;
[0008]将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络,获得所述目标的预测标签;
[0009]基于损失函数计算所述真实标签和所述预测标签之间的损失,并根据所述损失对所述目标分割模型进行迭代训练,直到所述目标分割模型收敛,得到训练后的目标分割模型

[0010]在一些实施例中,所述将当前帧原始图像的第一特征图和前一帧原始图像的第二
特征图输入所述门控循环单元网络,以融合所述第一特征图和所述第二特征图,获得融合特征图,包括:
[0011]将所述第一特征图和所述第二特征图输入所述门控循环单元网络,并根据第一公式对所述第一特征图和所述第二特征图进行特征融合,以获得融合特征图,其中,所述第一公式为:
[0012]Z
t

σ
(W
z
*[h
t
‑1,x
t
])
[0013]r
t

σ
(W
r
*[h
t
‑1,x
t
])
[0014][0015][0016]其中,
h
t
‑1表示所述第二特征图,
x
t
表示所述第一特征图,
σ
表示激活函数,
Z
t
表示所述融合特征图的更新门,
r
t
表示所述融合特征图的重置门,
W
z
、W
r
和表示权重矩阵,表示所述融合特征图的候选隐藏状态,
h
t
表示所述融合特征图

[0017]在一些实施例中,所述特征融合解码网络包括多个级联的解码层,所述将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络,获得所述目标的预测标签,包括:
[0018]将所述融合特征图输入第一级解码层进行上采样操作,得到所述第一级解码层的第一级输出特征图,连接所述第一级输出特征图与第一目标特征图,得到第一级连接特征图,其中,所述第一目标特征图与所述第一级输出特征图的尺度相同,所述第一目标特征图为所述当前帧原始图像的尺度最小的特征图;
[0019]将所述第一级连接特征图输入下一级解码层进行上采样操作,得到所述下一级解码层的下一级输出特征图,连接所述下一级输出特征图与下一目标特征图,得到下一级连接特征图,其中,所述下一目标特征图为所述当前帧原始图像的特征图中与所述下一级输出特征图尺度相同的特征图;
[0020]通过剩余的解码层重复执行所述将所述第一级连接特征图输入下一级解码层进行上采样操作,得到所述下一级解码层的下一级输出特征图,连接所述下一级输出特征图与下一目标特征图,得到下一级连接特征图,直至得到尺度与所述当前帧原始图像尺度相同的输出特征图,获得所述目标的预测标签

[0021]在一些实施例中,所述目标分割模型还包括注意力网络,所述方法还包括:
[0022]将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络,获得各尺度的特征图的注意力分数

[0023]在一些实施例中,所述将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络,获得各尺度的特征图的注意力分数,包括:
[0024]将所述当前帧原始图像的多个尺度的特征图输入所述注意力网络;
[0025]根据第二公式计算所述注意力分数,其中,所述第二公式为:
[0026]S
n

W
T
*f
n
+b
[0027]α

Softmax(s)
[0028]其中,
W
T
表示权重矩阵,
b
表示偏置参数,
f
n
表示所述当前帧原始图像的特征图,
n
表示所述当前帧原始图像的特征图的数量,
α
表示的是所述当前帧原始图像的特征图的注意
力分数,取值范围为
[0,1],
Softmax()
函数为归一化函数,
s

S
n

[0029]在一些实施例中,所述损失函数为:
[0030][0031]其中,
p
表示所述目标的真实标签,表示所述目标的预测标签,
α
i
表示所述当前帧原始图像的第
i
个特征图的注意力分数,
n
表示所述当前帧原始图像的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种训练目标分割模型的方法,其特征在于,所述目标分割模型包括卷积神经网络

门控循环单元网络和特征融合解码网络,所述方法包括:获取训练集,所述训练集包括多帧连续的原始图像,各帧所述原始图像均标注有目标的真实标签;将所述训练集中的原始图像输入所述卷积神经网络,获得每帧所述原始图像的多个尺度的特征图;将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络,以融合所述第一特征图和所述第二特征图,获得融合特征图,所述第一特征图和所述第二特征图均为对应的原始图像的尺度最小的特征图;将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络,获得所述目标的预测标签;基于损失函数计算所述真实标签和所述预测标签之间的损失,并根据所述损失对所述目标分割模型进行迭代训练,直到所述目标分割模型收敛,得到训练后的目标分割模型
。2.
根据权利要求1所述的方法,其特征在于,所述将当前帧原始图像的第一特征图和前一帧原始图像的第二特征图输入所述门控循环单元网络,以融合所述第一特征图和所述第二特征图,获得融合特征图,包括:将所述第一特征图和所述第二特征图输入所述门控循环单元网络,并根据第一公式对所述第一特征图和所述第二特征图进行特征融合,以获得融合特征图,其中,所述第一公式为:
Z
t

σ
(W
z
*[h
t
‑1,x
t
])r
t

σ
(W
r
*[h
t
‑1,x
t
])])
其中,
h
t
‑1表示所述第二特征图,
x
t
表示所述第一特征图,
σ
表示激活函数,
Z
t
表示所述融合特征图的更新门,
r
t
表示所述融合特征图的重置门,
W
z
、W
r
和表示权重矩阵,表示所述融合特征图的候选隐藏状态,
h
t
表示所述融合特征图
。3.
根据权利要求1所述的方法,其特征在于,所述特征融合解码网络包括多个级联的解码层,所述将当前帧原始图像的多个尺度的特征图和所述融合特征图输入所述特征融合解码网络,获得所述目标的预测标签,包括:将所述融合特征图输入第一级解码层进行上采样操作,得到所述第一级解码层的第一级输出特征图,连接所述第一级输出特征图与第一目标特征图,得到第一级连接特征图,其中,所述第一目标特征图与所述第一级输出特征图的尺度相同,所述第一目标特征图为所述当前帧原始图像的尺度最小的特征图;将所述第一级连接特征图输入下一级解码层进行上采样操作,得到所述下一级解码层的下一级输出特征图,连接所述下一级输出特征图与下一目标特征图,得到下一级连接特征图,其中,所述下一目标特征图为所述当前帧原始图...

【专利技术属性】
技术研发人员:陈仿雄
申请(专利权)人:深圳数联康健智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1