一种标签四点检测模型构建方法和装置制造方法及图纸

技术编号:39309767 阅读:13 留言:0更新日期:2023-11-12 15:56
本发明专利技术公开了一种标签四点检测模型构建方法和装置,所述方法包括:获取标签图像的训练数据集,对其进行数据增强并标注正确的目标检测框;构建初始网络模型,该模型包括主干网络、位置子网络和分类子网络;通过主干网络提取并生成相应图像样本的多层特征图;再通过分类子网络和位置子网络生成每个目标的初始类别和位置;将多层特征图中每个目标的预测框映射回原图,计算得到多个经过还原的真实坐标的预测框,采用预设方法筛选得到最优的预测框的类别及位置;采用训练数据集训练初始网络模型,构建损失函数,以得到标签四点检测模型。本发明专利技术能够有效检测不规则四边形目标,精确输出不规则四边形的四个角点坐标。不规则四边形的四个角点坐标。不规则四边形的四个角点坐标。

【技术实现步骤摘要】
一种标签四点检测模型构建方法和装置


[0001]本专利技术涉及目标检测技术,具体涉及一种标签四点检测模型构建方法和装置。

技术介绍

[0002]随着人工智能以及深度学习的快速发展,目标检测等计算机视觉的技术已经广泛的应用到了各行各业并且发挥了重要作用。其中,以FoveaBox、FCOS为代表的anchor

free目标检测技术,改变了绝大多数目标检测算法都要使用anchor box的现状,大大降低了模型的复杂度,并且减少了模型的输出。
[0003]具体的,相较于anchor

based方法,anchor

free方法最大的优势在于高效的检测速度和模型效率,因为该方法不需要预先设计anchor,只需要对不同尺度的特征图中的目标中心点、高和宽进行回归即可,这显著地减少了模型的耗时和计算成本。
[0004]然而,现有anchor

free方法整体的检测精度并不能达到anchor

based方法研究任务中最好模型的检测精度。并且对于不规则四边形的标签检测也存在着较大的问题,示例性的,存在检测不精准、无法准确识别目标标签的四点角点等问题。而目前通用的检测算法基本上都是回归边界框,但结合工程经验来看,边界框的定位不如采用角点定位的形式精度高。

技术实现思路

[0005]专利技术目的:本专利技术的一个目的在于提供一种标签四点检测模型构建方法,能够解决现有基于anchor

free目标检测方法所存在的检测效果差、精度低、效率低以及无法准确识别目标标签四点角点的问题。
[0006]本专利技术的另一目的在于提供一种标签四点检测模型构建装置。
[0007]技术方案:本专利技术的标签四点检测模型构建方法,该方法包括以下步骤:
[0008]获取训练数据集,并对所述训练数据集进行数据增强操作;所述训练数据集包括多个样本,每个样本中包含有标签图像;为每个样本的标签图像标注正确的目标检测框;
[0009]将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型,初始网络模型包括主干网络、位置子网络和分类子网络;通过所述主干网络提取并生成相应样本的多层特征图,将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框和以及获取多层特征图中每个目标的初始位置信息,将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息;将多层特征图中每个目标的目标预测框映射回原图,计算得到多个经过还原的真实坐标的预测框,并采用预设方法从多个目标预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息;以及
[0010]采用所述训练数据集训练初始网络模型,基于所述目标检测框和预设缩放因子构建正负样本,用于在训练过程中计算损失,并利用不同的损失函数对位置子网络和分类子网络进行训练,最终得到满足预设性能的标签四点检测模型。
[0011]进一步的,所述主干网络采用特征金字塔网络,特征金字塔网络包括自顶向下的
通路和横向连接,其中,自顶向下的通路为ResNet网络;所述特征金字塔网络的金字塔层级从浅层到深层,每个层次对输入的样本图像进行降采样。
[0012]进一步的,所述将多层特征图中每个目标的目标预测框映射回原图,计算得到多个经过还原的真实坐标的预测框,包括:
[0013]将多层特征图中每个目标的目标预测框映射回原图,利用Smooth L1损失函数计算投影坐标与真实图像的归一化偏移,得到多个经过还原的真实坐标的预测框。
[0014]进一步的,所述对所述训练数据集进行数据增强操作,其中,数据增强操作至少包括透视变换操作和随机缩放操作。
[0015]进一步的,所述基于所述目标检测框和预设缩放因子构建正负样本,包括:
[0016]将相应样本的目标检测框映射到目标所在的层级特征图中,计算中心点坐标,计算式为:
[0017][0018][0019]c

x
=x
’1+0.5(x
’2‑
x
’1),c

y
=y1’
+0.5(y
’2‑
y1’
);
[0020]其中,(x1,y1)和(x2,y2)为目标检测框左上和右下的坐标;(x
’1,y1’
)和(x
’2,y2’
)为映射后目标检测框的左上和右下的坐标;(c

x
,c

y
)为映射后目标检测框的中心点坐标;2
l
表示步长。
[0021]进一步的,所述基于所述目标检测框和预设缩放因子构建正负样本,还包括:
[0022]根据所述目标检测框内各正样本与所述中心点坐标的距离为各正样本分配权重,并引入具有旋转、放缩特性的一般化归一化二维高斯分布,计算式为:
[0023][0024]其中,X表示正样本的坐标;u表示中心关键点的坐标;(
·
)
T
表示转置。
[0025]进一步的,所述采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息,其中,预设方法采用非极大值抑制方法。
[0026]进一步的,所述初始网络模型采用基于高斯策略的样本分布与置信度预测。
[0027]进一步的,所述将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息,包括:
[0028]将所述多层特征图输入分类子网络进行逐像素分类,预测对应样本的置信度,以得到每个目标的初始类别信息和初始位置信息。
[0029]本专利技术的另一实施例中,一种标签四点检测模型构建装置,包括
[0030]数据获取模块,用于获取训练数据集,并对所述训练数据集进行数据增强操作;
[0031]模型构建模块,用于构建标签四点检测模型的初始网络模型,用于将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型,初始网络模型包括主干网络、位置子网络和分类子网络;用于通过所述主干网络提取并生成相应样本的多层特征图,将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框和多层特征图中每个目标的初始位置信息,将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息;还用于将多层特征图中每个目标的目标预测框映射回原图,计算得
到多个经过还原的真实坐标的预测框,并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息;
[0032]模型训练模块,用于采用所述训练数据集训练初始网络模型,用于基于所述目标检测框和预设缩放因子构建正负样本,并利用不同的损失函数对位置子网络和分类子网络进行训练,最终得到满足预设性能的标签四点检测模型。
[0033]有益效果:本专利技术的技术方案与现有技术相比,其有益效果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签四点检测模型构建方法,其特征在于,该方法包括以下步骤:获取训练数据集,并对所述训练数据集进行数据增强操作;所述训练数据集包括多个样本,每个样本中包含有标签图像;为每个样本的标签图像标注正确的目标检测框;将所述训练数据集的各样本依次输入至预先构建标签四点检测模型的初始网络模型,初始网络模型包括主干网络、位置子网络和分类子网络;通过所述主干网络提取并生成相应样本的多层特征图,将多层特征图输入位置子网络生成多层特征图中每个目标的目标预测框以及获取多层特征图中每个目标的初始位置信息,将多层特征图输入分类子网络以得到多层特征图中每个目标的初始类别信息;将多层特征图中每个目标的目标预测框映射回原图,计算得到多个经过还原的真实坐标的预测框,并采用预设方法从多个经过还原的真实坐标的预测框中筛选得到最优预测框以及最优预测框的位置信息和类别信息;以及采用所述训练数据集训练初始网络模型,基于所述目标检测框和预设缩放因子构建正负样本,用于在训练过程中计算损失,并利用不同的损失函数对位置子网络和分类子网络进行训练,最终得到满足预设性能的标签四点检测模型。2.根据权利要求1所述的标签四点检测模型构建方法,其特征在于:所述主干网络采用特征金字塔网络,特征金字塔网络包括自顶向下的通路和横向连接,其中,自顶向下的通路为ResNet网络;所述特征金字塔网络的金字塔层级从浅层到深层,每个层次对输入的样本图像进行降采样。3.根据权利要求1所述的标签四点检测模型构建方法,其特征在于,所述将多层特征图中每个目标的目标预测框映射回原图,计算得到多个经过还原的真实坐标的预测框,包括:将多层特征图中每个目标的目标预测框映射回原图,利用Smooth L1损失函数计算投影坐标与真实图像的归一化偏移,得到多个经过还原的真实坐标的预测框。4.根据权利要求1所述的标签四点检测模型构建方法,其特征在于:所述对所述训练数据集进行数据增强操作,其中,数据增强操作至少包括透视变换操作和随机缩放操作。5.根据权利要求1所述的标签四点检测模型构建方法,其特征在于,所述基于所述目标检测框和预设缩放因子构建正负样本,包括:将相应样本的目标检测框映射到目标所在的层级特征图中,计算中心点坐标,计算式为:为:c

x
=x
’1+0.5(x
’2‑
x
’1),c

y
=y
’1+0.5(y
’2‑
y
’1);其中,(x1,y1)和(x2,y2)为目标检测框左上和右下的...

【专利技术属性】
技术研发人员:谈震刘兆峰舒依娜杨兴旺孙宝贵徐希涛齐云鹏魏自强吴奇熊永平
申请(专利权)人:南京南瑞水利水电科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1