目标检测及模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:31584029 阅读:25 留言:0更新日期:2021-12-25 11:28
本公开提供了一种目标检测及模型训练方法、装置、设备和存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于智慧城市和智能交通场景下。目标检测方法包括:对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征;对所述图像进行位置编码处理,以获得所述图像的位置编码;基于所述多个阶段的图像特征以及所述位置编码,获得所述图像中的目标的所述多个阶段的检测结果;基于所述多个阶段的检测结果,获得目标检测结果。本公开可以提高目标检测精度。本公开可以提高目标检测精度。本公开可以提高目标检测精度。

【技术实现步骤摘要】
目标检测及模型训练方法、装置、设备和存储介质


[0001]本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于智慧城市和智能交通场景下,尤其涉及一种目标检测及模型训练方法、装置、设备和存储介质。

技术介绍

[0002]3D目标检测在自动驾驶等场景下应用较为普遍,3D目标检测是指在图像中检测出目标的3D边框及其类别,以提供信息给控制器,规划出合理路线。
[0003]相关技术中,可以基于几何约束或语义知识进行3D目标检测。

技术实现思路

[0004]本公开提供了一种目标检测及模型训练方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种目标检测方法,包括:对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征;对所述图像进行位置编码处理,以获得所述图像的位置编码;基于所述多个阶段的图像特征以及所述位置编码,获得所述图像中的目标的所述多个阶段的检测结果;基于所述多个阶段的检测结果,获得目标检测结果。
[0006]根据本公开的另一方面,提供了一种目标检测模型的训练方法,包括:对图像样本进行特征提取处理,以获得所述图像样本的多个阶段的图像特征;对所述图像样本进行位置编码处理,以获得所述图像样本的位置编码;
[0007]基于所述多个阶段的图像特征以及所述位置编码,获得所述图像样本中的目标的所述多个阶段的检测结果;基于所述多个阶段的检测结果,构建总损失函数;基于所述总损失函数,训练目标检测模型。
[0008]根据本公开的另一方面,提供了一种目标检测装置,包括:特征提取模块,用于对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征;位置编码模块,用于对所述图像进行位置编码处理,以获得所述图像的位置编码;第一获取模块,用于基于所述多个阶段的图像特征以及所述位置编码,获得所述图像中的目标的所述多个阶段的检测结果;第二获取模块,用于基于所述多个阶段的检测结果,获得目标检测结果。
[0009]根据本公开的另一方面,提供了一种目标检测模型的训练装置,包括:特征提取模块,用于对图像样本进行特征提取处理,以获得所述图像样本的多个阶段的图像特征;位置编码模块,用于对所述图像样本进行位置编码处理,以获得所述图像样本的位置编码;获取模块,用于基于所述多个阶段的图像特征以及所述位置编码,获得所述图像样本中的目标的所述多个阶段的检测结果;构建模块,用于基于所述多个阶段的检测结果,构建总损失函数;训练模块,用于基于所述总损失函数,训练目标检测模型。
[0010]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如
上述任一方面的任一项所述的方法。
[0011]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0013]根据本公开的技术方案,可以提高目标检测精度。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0016]图1是根据本公开第一实施例的示意图;
[0017]图2是根据本公开第二实施例的示意图;
[0018]图3是根据本公开第三实施例的示意图;
[0019]图4是根据本公开第四实施例的示意图;
[0020]图5是根据本公开第五实施例的示意图;
[0021]图6是根据本公开第六实施例的示意图;
[0022]图7是根据本公开第七实施例的示意图;
[0023]图8是根据本公开第八实施例的示意图;
[0024]图9是根据本公开第九实施例的示意图;
[0025]图10是根据本公开第十实施例的示意图;
[0026]图11是用来实现本公开实施例的目标检测或目标检测模型的训练方法中任一方法的电子设备的示意图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]相关技术中,可以基于几何约束或语义知识进行3D目标检测。然而,其检测精度较低。
[0029]为了提高目标检测精度,本公开提供如下实施例。
[0030]图1是根据本公开第一实施例的示意图,本实施例提供一种目标检测方法,该方法包括:
[0031]101、对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征。
[0032]102、对所述图像进行位置编码处理,以获得所述图像的位置编码。
[0033]103、基于所述多个阶段的图像特征以及所述位置编码,获得所述图像中的目标的所述多个阶段的检测结果。
[0034]104、基于所述多个阶段的检测结果,获得目标检测结果。
[0035]本实施例的执行主体可以称为目标检测装置,目标检测装置可以为软件、硬件或者软硬结合,该装置可以位于电子设备中。该电子设备可以位于服务端或者用户终端,服务端可以为本地服务器或者云端,用户终端可以包括移动设备(如手机、平板电脑)、车载终端(如车机)、可穿戴式设备(如智能手表、智能手环)、智能家居设备(如智能电视、智能音箱)等。
[0036]目标检测可以应用于多种场景,比如,自动驾驶、辅助驾驶、机器人等。
[0037]以自动驾驶为例,自动驾驶车辆(Autonomous vehicles;Self

driving automobile)又称无人驾驶车辆、电脑驾驶车辆或轮式移动机器人,是一种通过电脑系统实现无人驾驶的智能车辆。
[0038]如图2所示,自动驾驶车辆上可以安装摄像头,摄像头可以采集车辆周围的图像,具体地,可以采用单目摄像头采集图像。自动驾驶车辆采集到图像后,可以通过网络传输给云端。云端可以基于图像进行目标检测。进一步地,云端还可以基于目标检测结果执行后续操作,比如,基于目标检测结果进行避障、规划路线等。
[0039]图像中可以包括目标,目标是感兴趣的对象,进一步地,目标可以为3D目标,以自动驾驶车辆为例,自动驾驶车辆可以检测车辆前方的其他车辆、行人等,其他车辆和行人等即为3D目标。
[0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标检测方法,包括:对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征;对所述图像进行位置编码处理,以获得所述图像的位置编码;基于所述多个阶段的图像特征以及所述位置编码,获得所述图像中的目标的所述多个阶段的检测结果;基于所述多个阶段的检测结果,获得目标检测结果。2.根据权利要求1所述的方法,其中,所述多个阶段的检测结果包括至少一种类别的检测结果,所述基于所述多个阶段的检测结果,获得目标检测结果,包括:确定所述多个阶段的检测结果中的待融合结果;对所述待融合结果进行融合处理,以获得所述待融合结果对应类别的目标检测结果;和/或,将所述多个阶段的检测结果中的非待融合结果,作为所述非待融合结果对应类别的目标检测结果。3.根据权利要求2所述的方法,还包括:基于所述多个阶段的图像特征以及所述位置编码,确定所述多个阶段的检测结果的不确定度;所述对所述待融合结果进行融合处理,包括:基于所述不确定度,对所述待融合结果进行融合处理。4.根据权利要求3所述的方法,其中,所述基于所述多个阶段的图像特征以及所述位置编码,确定所述多个阶段的检测结果的不确定度,包括:对所述多个阶段的图像特征和所述位置编码进行拼接,以得到拼接张量;将所述拼接张量作为注意力网络的输入,采用所述注意力网络对所述拼接张量进行处理,以获得所述多个阶段的检测结果的不确定度。5.根据权利要求2

4任一项所述的方法,其中,所述多个阶段的检测结果为3D结果,所述确定所述多个阶段的检测结果中的待融合结果,包括:将所述3D结果映射为2D结果;确定不同阶段的检测结果对应的2D结果之间的交并比;若所述交并比大于预设阈值,将所述不同阶段的检测结果作为待融合结果。6.一种目标检测模型的训练方法,包括:对图像样本进行特征提取处理,以获得所述图像样本的多个阶段的图像特征;对所述图像样本进行位置编码处理,以获得所述图像样本的位置编码;基于所述多个阶段的图像特征以及所述位置编码,获得所述图像样本中的目标的所述多个阶段的检测结果;基于所述多个阶段的检测结果,构建总损失函数;基于所述总损失函数,训练目标检测模型。7.根据权利要求6所述的方法,其中,所述多个阶段的检测结果包括至少一种类别的检测结果,所述基于所述多个阶段的检测结果,构建总损失函数,包括:确定所述多个阶段的检测结果中的待融合结果,对所述待融合结果进行融合处理,以获得融合结果,基于所述融合结果构建第一损失函数;
确定所述多个阶段的检测结果中的非融合结果,基于所述非融合结果构建第二损失函数;基于所述多个阶段的检测结果的类别检测结果,构建第三损失函数;基于所述第一损失函数、所述第二损失函数和所述第三损失函数,构建所述总损失函数。8.根据权利要求7所述的方法,还包括:基于所述多个阶段的图像特征以及所述位置编码,确定所述多个阶段的检测结果的不确定度;所述对所述待融合结果进行融合处理,包括:基于所述不确定度,对所述待融合结果进行融合处理;所述基于所述融合结果构建第一损失函数,包括:对所述不确定度进行正则化,以获得正则化的不确定度;基于所述融合结果和所述正则化的不确定度,构建第一损失函数。9.根据权利要求8所述的方法,其中,所述基于所述多个阶段的图像特征以及所述位置编码,确定所述多个阶段的检测结果的不确定度,包括:对所述多个阶段的图像特征和所述位置编码进行拼接,以得到拼接张量;将所述拼接张量作为注意力网络的输入,采用所述注意力网络对所述拼接张量进行处理,以获得所述多个阶段的检测结果的不确定度。10.根据权利要求7

9任一项所述的方法,其中,所述多个阶段的检测结果为3D结果,所述确定所述多个阶段的检测结果中的待融合结果,包括:将所述3D结果映射为2D结果;确定所述多个阶段中各个阶段的检测结果对应的2D结果与所述目标的2D真值之间的交并比;若所述交并比大于预设阈值的阶段大于一个阶段,将所述大于一个阶段的检测结果作为待融合结果。11.根据权利要求7

9任一项所述的方法,其中,所述多个阶段的检测结果为3D结果,确定所述多个阶段的检测结果中的非融合结果,包括:将所述3D结果映射为2D结果;确定所述多个阶段中各个阶段的检测结果对应的2D结果与所述目标的2D真值之间的交并比;若所述交并比大于预设阈值的阶段为一个阶段,将所述一个阶段的检测结果作为非融合结果。12.一种目标检测装置,包括:特征提取模块,用于对图像进行特征提取处理,以获得所述图像的多个阶段的图像特征;位置编码模块,用于对所述图像进行位置编码处理,以获得所述图像的位置编码;第一获取模块,用于基于所述多个阶段的图像特征以及所述位置编码,获得...

【专利技术属性】
技术研发人员:谭啸叶晓青孙昊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1