System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 目标检测模型的训练方法和装置制造方法及图纸_技高网

目标检测模型的训练方法和装置制造方法及图纸

技术编号:41269721 阅读:4 留言:0更新日期:2024-05-11 09:24
本发明专利技术公开了一种目标检测模型的训练方法和装置,涉及自动驾驶技术领域。该方法的一具体实施方式包括:获取作为模型训练输入数据的视频信息,提取所述视频信息中连续帧的三维空间特征;其中,所述连续帧中包括作为尾帧的当前帧;将所述连续帧中除所述当前帧之外的其它图像的三维空间特征拼接为特定融合特征后输入待训练的目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第二类损失函数;基于第二类损失函数形成最终损失函数,利用所述最终损失函数训练所述目标检测模型。该实施方式能够提高目标检测模型的三维目标识别能力。

【技术实现步骤摘要】

本专利技术涉及自动驾驶,尤其涉及一种目标检测模型的训练方法和装置


技术介绍

1、在自动驾驶领域,需要实时识别目标物的三维信息以实现场景感知、控制和规划。在目前的纯视觉三维目标检测技术中,一般采用当前帧进行模型训练或者将一定数量的历史帧加入进行辅助训练,前一种方法无法利用连续帧图像在时序上的运动特征,后一种方法则过于倾向当前帧的信息而忽视历史帧信息,这是因为训练数据中的标注真值是对应于当前帧的,模型训练过程中会自然地倾向于当前帧,导致模型最终难以学习到历史帧中的丰富时序信息和运动信息,不利于模型性能的进一步提高。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种目标检测模型的训练方法和装置,在模型训练过程中通过排除当前帧图像的损失函数构建过程来提高模型性能。

2、为实现上述目的,根据本专利技术的一个方面,提供了一种目标检测模型的训练方法。

3、本专利技术实施例的目标检测模型的训练方法包括:获取作为模型训练输入数据的视频信息,提取所述视频信息中连续帧的三维空间特征;其中,所述连续帧中包括作为尾帧的当前帧;将所述连续帧中除所述当前帧之外的其它图像的三维空间特征拼接为特定融合特征后输入待训练的目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第二类损失函数;基于第二类损失函数形成最终损失函数,利用所述最终损失函数训练所述目标检测模型。

4、可选地,所述基于第二类损失函数形成最终损失函数,包括:将第二类损失函数确定为所述最终损失函数。

5、可选地,所述方法进一步包括:在所述提取所述视频信息中连续帧的三维空间特征之后,在所述连续帧中进行多次抽取,根据每次抽取确定所述连续帧中序号等间隔排列的多帧图像;其中,不同次抽取的序号间隔不同,所述序号间隔不小于2;将每次抽取确定的图像的三维空间特征拼接为该次抽取的时序融合特征后输入所述目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得该次抽取的第一类损失函数;以及,所述基于第二类损失函数形成最终损失函数,包括:将所述多次抽取的第一类损失函数以及第二类损失函数结合为最终损失函数。

6、可选地,所述提取所述视频信息中连续帧的三维空间特征,包括:利用预设的特征提取模型获取所述连续帧中每一帧的特征图特征;将所述特征图特征进行鸟瞰图视角投影处理,得到所述三维空间特征。

7、可选地,所述根据每次抽取确定所述连续帧中序号等间隔排列的多帧图像,包括:在每次抽取中,将所述当前帧作为该次抽取确定的第一帧图像,从所述当前帧开始沿时间降序按照该次抽取的序号间隔依次抽取图像。

8、可选地,所述多次抽取的序号间隔涵盖从2到第一数值之间的整数,第一数值为所述连续帧中图像数量的一半。

9、可选地,所述方法进一步包括:将所述连续帧中各图像的三维空间特征拼接为全量融合特征后输入所述目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第三类损失函数;以及,所述将所述多次抽取的第一类损失函数以及第二类损失函数结合为最终损失函数,包括:将所述多次抽取的第一类损失函数、第二类损失函数以及第三类损失函数相加,得到所述最终损失函数。

10、可选地,所述标注真值数据包括:目标类型,还包括以下至少一种数据:目标位置、目标姿态、目标尺寸。

11、为实现上述目的,根据本专利技术的另一方面,提供了一种目标检测方法。

12、本专利技术实施例的目标检测方法包括:提取尾帧为待检测帧的视频信息中各帧图像的三维空间特征,将各帧图像的三维空间特征拼接后输入训练完成的目标检测模型,得到所述待检测帧中的检测结果;其中,所述目标检测模型是根据以上目标检测模型的训练方法训练而成的。

13、可选地,所述检测结果包括:目标类型,还包括以下至少一种数据:目标位置、目标姿态、目标尺寸。

14、为实现上述目的,根据本专利技术的又一方面,提供了一种目标检测模型的训练装置。

15、本专利技术实施例的目标检测模型的训练装置可以包括:特征提取单元,用于获取作为模型训练输入数据的视频信息,提取所述视频信息中连续帧的三维空间特征;其中,所述连续帧中包括作为尾帧的当前帧;第二函数构建单元,用于将所述连续帧中除所述当前帧之外的其它图像的三维空间特征拼接为特定融合特征后输入待训练的目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第二类损失函数;训练单元,用于基于第二类损失函数形成最终损失函数,利用所述最终损失函数训练所述目标检测模型。

16、为实现上述目的,根据本专利技术的又一方面,提供了一种目标检测装置。

17、本专利技术实施例的目标检测装置可用于:提取尾帧为待检测帧的视频信息中各帧图像的三维空间特征,将各帧图像的三维空间特征拼接后输入训练完成的目标检测模型,得到所述待检测帧中的检测结果;其中,所述目标检测模型是根据以上目标检测模型的训练装置训练而成的。

18、为实现上述目的,根据本专利技术的又一方面,提供了一种电子设备。

19、本专利技术的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术所提供的目标检测模型的训练方法或目标检测方法。

20、为实现上述目的,根据本专利技术的再一方面,提供了一种计算机可读存储介质。

21、本专利技术的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术所提供的目标检测模型的训练方法或目标检测方法。

22、根据本专利技术的技术方案,上述专利技术中的实施例具有如下优点或有益效果:

23、为了避免现有的当前帧与历史帧特征融合导致的过于倾向当前帧而忽略历史帧的缺点,本专利技术采用以下方式进行克服,将连续帧中除当前帧之外的历史帧的三维空间特征拼接并基于该拼接特征构建第二类损失函数进而形成最终损失函数来训练目标检测模型,这种方式通过摒弃传统的当前帧与历史帧的特征融合方式来避免模型过分依赖当前帧的缺陷,有助于提高三维目标识别准确性。更优地,本专利技术实施例在以上方式的基础上结合另一种特征融合方式,即,在包括当前帧和历史帧的连续帧中进行多次抽取,根据每次抽取确定连续帧中序号等间隔排列的多帧图像,其中,各次抽取的序号间隔不同且不小于2,此后将每次抽取确定的图像的三维空间特征拼接并基于该拼接特征构建第一类损失函数,最后结合第一类损失函数和第二类损失函数生成最终损失函数来训练目标检测模型,这种结合方案通过摒弃传统的当前帧与历史帧的特征融合方式、并且保留当前帧和历史帧中丰富的时序运动信息,更有效地避免模型过分依赖当前帧的缺陷,有助于进一步提高模型的三维目标识别能力。

24、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

本文档来自技高网...

【技术保护点】

1.一种目标检测模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第二类损失函数形成最终损失函数,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:

4.根据权利要求1所述的方法,其特征在于,所述提取所述视频信息中连续帧的三维空间特征,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据每次抽取确定所述连续帧中序号等间隔排列的多帧图像,包括:

6.根据权利要求3所述的方法,其特征在于,所述多次抽取的序号间隔涵盖从2到第一数值之间的整数,第一数值为所述连续帧中图像数量的一半。

7.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:将所述连续帧中各图像的三维空间特征拼接为全量融合特征后输入所述目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第三类损失函数;以及,

8.根据权利要求1所述的方法,其特征在于,所述标注真值数据包括:目标类型,还包括以下至少一种数据:目标位置、目标姿态、目标尺寸。

9.一种目标检测方法,其特征在于,包括:

10.根据权利要求9所述的方法,其特征在于,所述检测结果包括:目标类型,还包括以下至少一种数据:目标位置、目标姿态、目标尺寸。

11.一种目标检测模型的训练装置,其特征在于,包括:

12.一种目标检测装置,其特征在于,用于:提取尾帧为待检测帧的视频信息中各帧图像的三维空间特征,将各帧图像的三维空间特征拼接后输入训练完成的目标检测模型,得到所述待检测帧中的检测结果;其中,所述目标检测模型是根据权利要求11所述的装置训练的。

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。

...

【技术特征摘要】

1.一种目标检测模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于第二类损失函数形成最终损失函数,包括:

3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:

4.根据权利要求1所述的方法,其特征在于,所述提取所述视频信息中连续帧的三维空间特征,包括:

5.根据权利要求3所述的方法,其特征在于,所述根据每次抽取确定所述连续帧中序号等间隔排列的多帧图像,包括:

6.根据权利要求3所述的方法,其特征在于,所述多次抽取的序号间隔涵盖从2到第一数值之间的整数,第一数值为所述连续帧中图像数量的一半。

7.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:将所述连续帧中各图像的三维空间特征拼接为全量融合特征后输入所述目标检测模型,基于所述目标检测模型的输出结果与所述当前帧的标注真值数据获得第三类损失函数;以及,

...

【专利技术属性】
技术研发人员:姚卓坤
申请(专利权)人:北京京东远升科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1