System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种关键点定位模型训练方法、以及关键点定位方法技术_技高网

一种关键点定位模型训练方法、以及关键点定位方法技术

技术编号:40281428 阅读:4 留言:0更新日期:2024-02-07 20:35
本申请实施例提供了一种关键点定位模型训练方法、以及关键点定位方法,涉及深度学习技术领域。方法包括:基于初始关键点定位模型对样本图像和各第一标识进行特征提取,得到第一样本特征图和各第一文本特征;利用初始关键点定位模型进行关键点的检测框的定位和分类,得到第一样本特征图中每一像素位置对应的第一检测框的检测结果;基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算置信度损失值,位置损失值,以及对齐损失值;基于置信度损失值、对齐损失值和位置损失值,对初始关键点定位模型的模型参数进行调整,直至达到预设收敛条件,得到目标关键点定位模型。如此,能够根据用户的实际需求对图像中指定的关键点进行定位。

【技术实现步骤摘要】

本申请涉及深度学习,特别是涉及一种关键点定位模型训练方法、以及关键点定位方法


技术介绍

1、在深度学习
,可以利用训练好的关键点定位模型,对图像中指定对象的关键点进行定位,即得到各关键点在图像中的坐标。

2、然而,相关技术中,在训练关键点定位模型时,需要预先获取大量的包含指定对象的样本图像,并按照统一的标注方式对样本图像进行标注。相应的,训练得到的关键点定位模型在对包含指定对象的待检测图像进行检测时,也只能够按照对样本图像进行标注的标注方式,定位待检测图像中指定对象的关键点。

3、因此,如何根据用户的实际需求,对待检测图像中指定对象的关键点进行定位,成为亟待解决的问题。


技术实现思路

1、本申请实施例的目的在于提供一种关键点定位模型训练方法、以及关键点定位方法,以实现根据用户的实际需求对图像中指定的关键点进行定位。具体技术方案如下:

2、本申请实施例的第一方面,首先提供了一种关键点定位模型训练方法,所述方法包括:

3、获取包含指定对象的样本图像,以及所述样本图像的样本标签;其中,任一样本图像的样本标签包含:该样本图像中指定对象的各关键点的标注框的位置,以及该样本图像中各关键点的第一标识;

4、基于初始关键点定位模型对所述样本图像进行特征提取,得到第一样本特征图,以及对各第一标识进行特征提取,得到各第一文本特征;

5、基于各第一文本特征和所述第一样本特征图,利用所述初始关键点定位模型进行关键点的检测框的定位和分类,得到所述第一样本特征图中每一像素位置对应的第一检测框的检测结果;其中,任一第一检测框的检测结果包含:该第一检测框的位置、表示所述样本图像中该第一检测框处是否包含关键点的置信度,以及所述样本图像中该第一检测框处包含各关键点的预测概率;

6、基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各第一检测框的置信度与关键点标签之间差异的置信度损失值,用于表示各标注框与各第一检测框的位置之间差异的位置损失值,以及用于表示各预测概率与各真实概率之间差异的对齐损失值;

7、其中,所述关键点标签表示所述样本图像中各第一检测框处是否包含关键点;任一第一检测框对应的图像特征与任一第一文本特征之间的真实概率表示:所述样本图像中该第一检测框处是否包含该第一文本特征对应的关键点;基于所述置信度损失值、对齐损失值和位置损失值,对所述初始关键点定位模型的模型参数进行调整,直至达到预设收敛条件,得到目标关键点定位模型。

8、在一些实施例中,所述初始关键点定位模型包含文本编码器和位置编码器;

9、在所述基于初始关键点定位模型对各第一标识进行特征提取,得到各第一文本特征之前,所述方法还包括:获取用户在所述样本图像中点击的位置的第一位置信息;基于所述位置编码器对所述第一位置信息进行编码,得到位置特征;

10、所述基于初始关键点定位模型对各第一标识进行特征提取,得到各第一文本特征,包括:基于所述文本编码器对各第一标识进行文本特征提取,得到各第二文本特征;对各第二文本特征和所述位置特征进行融合,得到各第一文本特征。

11、在一些实施例中,每一关键点的第一标识为:用于描述该关键点在所述指定对象中的生理位置的文本;所述文本编码器包含预设的大语言模型中的文本特征提取网络。

12、在一些实施例中,所述初始关键点定位模型包含视觉编码器和注意力网络;

13、所述基于初始关键点定位模型对所述样本图像进行特征提取,得到第一样本特征图,包括:基于所述视觉编码器对所述样本图像进行图像特征提取,得到第二样本特征图;基于所述注意力网络对所述第二样本特征图进行处理,得到第一样本特征图。

14、在一些实施例中,所述注意力网络包含:用于在通道、空间和尺寸的维度上实现注意力机制的视觉特征注意力网络,以及用于在通道的维度上实现注意力机制的通道注意力网络;

15、所述基于所述注意力网络对所述第二样本特征图进行处理,得到第一样本特征图,包括:基于所述视觉特征注意力网络对所述第二样本特征图进行处理,得到第三样本特征图;基于所述通道注意力网络对所述第三样本特征图进行处理,得到第一样本特征图。

16、在一些实施例中,在基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各预测概率与各真实概率之间差异的对齐损失值之前,所述方法还包括:

17、针对每一第一检测框,基于该第一检测框的位置与各标注框的位置,确定所述样本图像中该第一检测框处是否包含关键点;若包含,则确定该第一检测框对应的图像特征与其所包含的关键点对应的第一文本特征之间的真实概率为1,且该第一检测框对应的图像特征与其他的第一文本特征之间的真实概率为0;若不包含,则确定该第一检测框对应的图像特征与所有的第一文本特征之间的真实概率均为0。

18、在一些实施例中,所述基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各标注框与各第一检测框的位置之间差异的位置损失值,包括:针对每一标注框,基于预设公式计算该标注框与每一指定的第一检测框之间的损失值;其中,任一指定的第一检测框的置信度表征:所述样本图像中该第一检测框处包含关键点;所述预设公式为:

19、

20、针对任一标注框与任一指定的第一检测框,l表示该标注框与该指定的第一检测框之间的损失值,iou表示该标注框与该第一检测框的交并比,o表示该标注框与该第一检测框之间的距离;基于各标注框与各指定的第一检测框之间的各损失值,得到用于表示各标注框与各第一检测框的位置之间差异的位置损失值。

21、在一些实施例中,在所述获取包含指定对象的样本图像,以及所述样本图像的样本标签之前,所述方法还包括:针对任一样本图像,获取该样本图像中指定对象的各关键点的坐标;针对任一关键点,基于该关键点的坐标,确定该样本图像中包含该关键点的指定大小的框,作为该关键点的标注框。

22、本申请实施例的第二方面,提供了一种关键点定位方法,所述方法包括:

23、获取包含指定对象的待检测图像和待定位关键点的第二标识;

24、将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果;其中,任一第二检测框的检测结果包含:该第二检测框的位置、表示所述待检测图像中该第二检测框处是否包含关键点的置信度,以及所述待检测图像中该第二检测框处包含所述待定位关键点的预测概率;所述训练好的关键点定位模型为按照上述任一关键点定位模型训练方法进行训练得到的;

25、基于各第二检测框的检测结果,得到所述待检测图像中所述待定位关键点的坐标。

26、在一些实施例中,所述将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果,包括:

27、将待检测图像、所述第二标识,以及用户在所述待检测图像中点击本文档来自技高网...

【技术保护点】

1.一种关键点定位模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述初始关键点定位模型包含文本编码器和位置编码器;

3.根据权利要求2所述的方法,其特征在于,每一关键点的第一标识为:用于描述该关键点在所述指定对象中的生理位置的文本;所述文本编码器包含预设的大语言模型中的文本特征提取网络。

4.根据权利要求1所述的方法,其特征在于,所述初始关键点定位模型包含视觉编码器和注意力网络;

5.根据权利要求4所述的方法,其特征在于,所述注意力网络包含:用于在通道、空间和尺寸的维度上实现注意力机制的视觉特征注意力网络,以及用于在通道的维度上实现注意力机制的通道注意力网络;

6.根据权利要求1所述的方法,其特征在于,在基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各预测概率与各真实概率之间差异的对齐损失值之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各标注框与各第一检测框的位置之间差异的位置损失值,包括:

8.根据权利要求1所述的方法,其特征在于,在所述获取包含指定对象的样本图像,以及所述样本图像的样本标签之前,所述方法还包括:

9.一种关键点定位方法,其特征在于,所述方法包括:

10.根据权利要求9所述的方法,其特征在于,所述将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果,包括:

11.根据权利要求9所述的方法,其特征在于,所述基于各第二检测框的检测结果,得到所述待检测图像中所述待定位关键点的坐标,包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8,或,9-11任一所述的方法。

...

【技术特征摘要】

1.一种关键点定位模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述初始关键点定位模型包含文本编码器和位置编码器;

3.根据权利要求2所述的方法,其特征在于,每一关键点的第一标识为:用于描述该关键点在所述指定对象中的生理位置的文本;所述文本编码器包含预设的大语言模型中的文本特征提取网络。

4.根据权利要求1所述的方法,其特征在于,所述初始关键点定位模型包含视觉编码器和注意力网络;

5.根据权利要求4所述的方法,其特征在于,所述注意力网络包含:用于在通道、空间和尺寸的维度上实现注意力机制的视觉特征注意力网络,以及用于在通道的维度上实现注意力机制的通道注意力网络;

6.根据权利要求1所述的方法,其特征在于,在基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各预测概率与各真实概率之间差异的对齐损失值之前,所述方法还包括:

...

【专利技术属性】
技术研发人员:赵璧原谢迪浦世亮
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1