【技术实现步骤摘要】
多尺度物体实例分割模型的训练方法、分割方法和装置
[0001]本专利技术涉及图像处理
,具体涉及一种多尺度物体实例分割模型的训练方法、分割方法和装置。
技术介绍
[0002]物体分割是检测工业产品成像中所有目标物体的机器视觉分割方法,其在机器人视觉定位、产品质量参数分析(包括形态、数量、区域面积、中心点等)、机器人抓取等领域应用广泛。
[0003]在工业生产中,对于产品类别多且尺度规格不一的应用场景,物体实例分割难度较大,由于产品识别与定位、质量分析、抓取、分拣等任务依赖于对目标物体的精准分割,且各种工业场景对分割指标要求高,需求旺盛,但物体之间的大小、形状差异大,尺度不一,给物体实例分割增加了额外的复杂性,容易导致对极大或过多尺度物体的漏检、误检,而生产企业对不同尺度物体实例分割精度有较高的要求,以用于后续的产品的质量分析、精确定位等任务。
技术实现思路
[0004]本专利技术主要解决的技术问题是如何实现多尺度物体实例的精准分割。
[0005]根据第一方面,一种实施例中提供一种多尺度物体实例分割模型的训练方法,所述多尺度物体实例分割模型包括特征提取网络、目标框预测网络和掩码网络,其中所述掩码网络包括分割模块和融合模块,所述训练方法包括:
[0006]获取包括具有一个或者多个物体实例的输入图像和标注数据,其中所述标注数据中包括所述输入图像中标记目标框的位置信息、类别信息和所述输入图像对应的标记二值图;
[0007]将所述输入图像输入所述特征提取网络中,得到多层具有 ...
【技术保护点】
【技术特征摘要】
1.一种多尺度物体实例分割模型的训练方法,其特征在于,所述多尺度物体实例分割模型包括特征提取网络、目标框预测网络和掩码网络,其中所述掩码网络包括分割模块和融合模块,所述训练方法包括:获取包括具有一个或者多个物体实例的输入图像和标注数据,其中所述标注数据中包括所述输入图像中标记目标框的位置信息、类别信息和所述输入图像对应的标记二值图;将所述输入图像输入所述特征提取网络中,得到多层具有相同通道、不同分辨率的第一融合特征图;将所述多层具有相同通道、不同分辨率的第一融合特征图输入所述目标框预测网络中,得到各层所述第一融合特征图中的预测目标框的位置信息、类别信息和中心度,以及各层所述第一融合特征图对应的注意力图,其中各层所述注意力图与对应层的所述第一融合特征图具有相同分辨率;其中,中心度用于表征所述第一融合特征图中各个像素点位于对应的所述预测目标框的中心性;基于所述预测目标框的位置信息、类别信息和中心度以及所述标注数据中标记目标框的位置信息和类别信息,构建目标框预测网络损失函数;将多层所述第一融合特征图输入所述掩码网络的分割模块中,得到预测分割图和预测分数图,其中预测分割图具有2个通道且与多层所述第一融合特征图中的第一层第一融合特征图具有相同分辨率,预测分数图具有4个通道且与多层所述第一融合特征图中的第一层第一融合特征图具有相同分辨率;将多层所述注意力图、所述预测分数图和标记目标框输入所述掩码网络的融合模块中,得到实例预测图像;基于所述预测分割图和尺度变换后的所述输入图像对应的标记二值图,构建分割模块损失函数;其中,尺度变换后的所述输入图像对应的标记二值图与所述预测分割图具有相同的分辨率;基于所述实例预测图像和尺度变换后的所述输入图像对应的标记二值图中所述标记目标框对应的二值化图像,构建融合模块损失函数;其中,所述二值化图像与所述实例预测图像具有相同的分辨率;根据所述目标框预测网络损失函数、分割模块损失函数和融合模块损失函数,构建总损失函数,并根据所述总损失函数对多尺度物体实例分割模型进行训练,得到相应的模型参数。2.如权利要求1所述的方法,其特征在于,所述特征提取网络包括粗提取层和细提取层;将所述输入图像输入所述特征提取网络中,得到多层具有相同通道、不同分辨率的第一融合特征图包括:对所述输入图像输入粗提取层进行两次卷积处理,得到初始特征图;对所述初始特征图输入细提取层进行多次多尺度聚合网络层处理,得到多层具有不同通道、不同分辨率的高级特征图;对所述多层具有不同通道、不同分辨率的高级特征图进行1
×
1卷积处理后,得到多层具有相同通道、不同分辨率的第一融合特征图。3.如权利要求2所述的方法,其特征在于,将所述初始特征图输入细提取层进行多次多尺度聚合网络层处理包括:
若当前次多尺度聚合网络层处理为第一次多尺度聚合网络层处理,按照以下方式进行第一次多尺度聚合网络层处理:对所述初始特征图进行1
×
1卷积处理和通道平均分离处理,得到多个分离特征图;将多个分离特征图中的第一个分离特征图作为第一个特征子图,将多个分离特征图中的第二个分离特征图进行卷积处理得到第二个特征子图,将多个分离特征图中的第i个分离特征图和第i
‑
1个特征子图执行哈达玛加法运算然后再进行卷积处理得到第i个特征子图,以得到多个特征子图,其中,i为大于等于3的整数;对多个特征子图进行通道拼接后,再进行1
×
1卷积处理,得到第一特征图;对所述初始特征图与所述第一特征图进行哈达玛加法运算,得到第一层高级特征图;若当前次多尺度聚合网络层处理不是第一次多尺度聚合网络层处理,按照以下方式进行一次多尺度聚合网络层处理:对上一次多尺度聚合网络层输出的特征图进行1
×
1卷积处理和通道平均分离处理,得到多个分离特征图;将多个分离特征图中的第一个分离特征图作为第一个特征子图,对多个分离特征图中的第二个分离特征图进行卷积处理得到第二个特征子图,对多个分离特征图中的第i个分离特征图和第i
‑
1个特征子图执行哈达玛加法运算然后再进行卷积处理得到第i个特征子图,以得到多个特征子图,其中,i为大于等于3的整数;对多个特征子图进行通道拼接后,再进行1
×
1卷积处理,得到第一特征图;对所述上一次多尺度聚合网络层输出的特征图与所述第一特征图进行哈达玛加法运算,得到一层高级特征图。4.如权利要求1所述的方法,其特征在于,所述目标框预测网络包括:第一预测模块、第二预测模块、第三预测模块和注意力图提取模块;将所述多层具有相同通道、不同分辨率的第一融合特征图输入所述目标框预测网络中,得到各层所述特征图中的预测目标框的位置信息、类别信息和中心度,以及各层所述特征图对应的注意力图包括:将所述多层具有相同通道、不同分辨率的第一融合特征图中的每个像素点作为一个样本点,构建样本集;将所述样本集输入所述第一预测模块中,得到多层具有C个通道且与对应层所述第一融合特征图分辨率相同的第一预测特征子图,其中所述第一预测特征子图用于表征对应层所述第一融合特征图中各个像素点所预测的预测目标框的类别信息,C为类别数;将所述样本集输入所述第二预测模块中,得到多层具有4个通道且与对应层所述第一融合特征图分辨率相同的第二预测特征子图,其中所述第二预测特征子图用于表征对应层所述第一融合特征图中各个像素点到预测目标框的四条边界的距离信息;将所述样本集输入所述第三预测模块中,得到多层具有1个通道且与对应层所述第一融合特征图分辨率相同的第三预测特征子图,其中所述第三预测特征子图用于表征对应层所述第一融合特征图中各个像素点的中心度;将所述样本集输入所述注意力图提取模块中,得到多层具有K
×
Q
×
Q通道维度且与对应层所述第一融合特征图分辨率相同的注意力图;其中,K为掩码系数,Q为掩码的长度或宽度;根据多层所述第一预测特征子图、多层所述第二预测特征子图和多层所述第三预测特
征子图,确定多层所述第一融合特征图中各个像素点所预测的预测目标框的类别信息、到预测目标框的四条边界的距离信息和中心度;根据多层所述第一融合特征图中各个像素点的类别信息、到预测目标框的四条边界的距离信息和中心度,得到每层所述第一融合特征图中的预测目标框的位置信息、类别信息和中心度。5.如权利要求4所述的方法,其特征在于,所述将所述多层具有相同通道、不同分辨率的第一融合特征图中的每个像素点作为一个样本,构建样本集包括:将所述多层具有相同通道、不同分辨率的第一融合特征图中位于一个标记目标框中的像素点作为正样本;将所述多层具有相同通道、不同分辨率的第一融合特征图中没有位于任一个标记目标框中的像素点作为负样本;将多层具有相同通道、不同分辨率的第一融合特征图中同时落在至少两个标记目标框中的像素点作为模糊样本;基于所述正样本、负样本和模糊样本,得到样本集。6.如权利要求5所述的方法,其特征在于,基于所述正样本、负样本和模糊样本,得到样本集包括:判断多层所述第一融合特征图中各个像素点是否符合以下条件:将多层所述第一融合特征图中各个像素点映射至输入图像位置后到所述标记目标框的四条边界的距离信息满足以下公式:Min(j)≤max(l,t,r,b)<Max(j)其中,l、t、r、b表示第j层第一融合特征图中各个像素点映射至输入图像后到标记目标框的四条边界的距离信息,Min(j)表示预设的第j层第一融合特征图层各个像素点映射至输入图像后到标记目标框的四条边界的距离信息的最小值,Max(j)表示预设的第j层第一融合特征图中各个像素点映射至输入图像后到标记目标框的四条边界的距离信息的最大值;且Min(j)和Max(j)均随着层数j的增大而增大;将样本集中符合上述条件的像素点作为训练样本点,将所述样本集中的所有样本点输入所述目标框预测网络中进行预测,并将所述样本集中训练像素点所预测得到的预测目标框与对应的标记目标框进行目标框预测网络损失函数的训练。7.如权利要求1所述的方法,其特征在于,基于所述预测目标框的位置信息、类别信息和中心度以及所述标注数据中标记目标框的位置信息和类别信息,构建目标框预测网络损失函数包括:通过以下公式构建所述目标框预测网络损失函数L
V
:L
V
=L
class
+L
distance
+L
center
其中,L
class
表示分类损失函数,p
n
表示预测目标框为类别n的置信度,g
n
表示标记目标框为类别n的分数,C为总的类别数;L
distance
表示预测距离损失函数,M为预测目标框的面积,N为标记目标框的面积,M∩N表示预测目标框与处理后的标记目标框的区域相重叠的面积;其
中,处理后的标记目标框为基于所述标记目标框的顶点坐标和预测对应所述预测目标框的样本集中的训练像素点的坐标处理后得到;L
center
表示中心度损失函数,l
*
、t
*
、r
*
、b
*
为第一融合特征图中各个像素点到预测目标框的四条边界的距离信息。8.如权利要求1所述的方法,其特征在于,将多层所述第一融合特征图输入所述掩码网络的分割模块中,得到预测分割图和预测分数图包括:对多层所述第一融合特征图中的第一层第一融合特征图进行连续多次3
×
3卷积处理和1
×
1卷积处理,得到具有2个通道且与第一层所述第一融合特征图具有相同分...
【专利技术属性】
技术研发人员:曾利宏,杨洋,黄淦,李杰明,黄涛,
申请(专利权)人:深圳市华汉伟业科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。