目标检测模型的训练方法、目标检测方法、装置及设备制造方法及图纸

技术编号:38470536 阅读:8 留言:0更新日期:2023-08-11 14:47
本公开提供了目标检测模型的训练方法、目标检测方法、装置及设备。本公开涉及人工智能技术领域,具体为计算机视觉、图像识别、深度学习等技术领域。具体方案为:获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息和对应的目标标签;将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型,得到每个样本图像的多个可用未掩码区域的特征图;基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图;基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练,得到目标检测模型。根据本公开的方案,能够在降低算力成本和时间成本的同时,提升目标检测的准确性。升目标检测的准确性。升目标检测的准确性。

【技术实现步骤摘要】
目标检测模型的训练方法、目标检测方法、装置及设备


[0001]本公开涉及人工智能
,具体为计算机视觉、图像识别、深度学习等


技术介绍

[0002]近几年,深度学习技术在人工智能领域不断发展,在图像分类、目标检测、语义分割等领域均展现出卓越的性能。随着大模型技术的兴起,基于转换器(Transformer)模型的下游视觉任务更是取得突破性的进展。然而,大模型技术伴随而来的是计算量的急剧增加,这无疑增大了训练目标检测等下游视觉任务的算力成本和时间成本。因此,亟需一种更高效的模型设计来对算力成本和时间成本进行优化。

技术实现思路

[0003]本公开提供了一种目标检测模型的训练方法、目标检测方法、装置及设备。
[0004]根据本公开的第一方面,提供了一种目标检测模型的训练方法,包括:
[0005]获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息;
[0006]获取每个样本图像的多个可用未掩码区域对应的目标标签;
[0007]将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型,得到每个样本图像的多个可用未掩码区域的特征图;
[0008]基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图;
[0009]基于每个样本图像的目标特征图以及多个可用未掩码区域对应的目标标签对待训练模型进行训练,得到目标检测模型。
[0010]根据本公开的第二方面,提供了一种目标检测方法,包括:
[0011]获取待检测图像;
[0012]将待检测图像输入目标检测模型,得到目标检测模型输出的待检测图像的目标检测结果;
[0013]其中,目标检测模型基于第一方面的目标检测模型的训练方法训练得到。
[0014]根据本公开的第三方面,提供了一种目标检测模型的训练装置,包括:
[0015]第一获取模块,用于获取每个样本图像的多个可用未掩码区域以及多个可用未掩码区域的位置信息;
[0016]第二获取模块,用于获取每个样本图像的多个可用未掩码区域对应的目标标签;
[0017]第一输入模块,用于将每个样本图像的多个可用未掩码区域以及位置信息输入待训练模型,得到每个样本图像的多个可用未掩码区域的特征图;
[0018]第三获取模块,用于基于每个样本图像的多个可用未掩码区域的特征图得到每个样本图像的目标特征图;
[0019]训练模块,用于基于每个样本图像的目标特征图以及多个可用未掩码区域对应的
目标标签对待训练模型进行训练,得到目标检测模型。
[0020]根据本公开的第四方面,提供了一种目标检测装置,包括:
[0021]第五获取模块,用于获取待检测图像;
[0022]第二输入模块,用于将待检测图像输入目标检测模型,得到目标检测模型输出的待检测图像的目标检测结果;
[0023]其中,目标检测模型基于第一方面的目标检测模型的训练方法训练得到。
[0024]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;与至少一个处理器通信连接的存储器;存储器存储有可以被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。
[0025]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。
[0026]根据本公开的第七方面,提供了一种计算机程序产品,包括存储在存储介质上的计算机程序,该计算机程序在被处理器执行时实现第一方面提供的目标检测模型的训练方法和/或第二方面提供的目标检测方法。
[0027]根据本公开的技术方案,能够通过掩码技术直接从输入源头解决图像的冗余性,从而在降低了大模型的算力成本和时间成本的同时,提升了目标检测模型的准确度。
[0028]上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
[0029]在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
[0030]图1是根据本公开实施例的目标检测模型的训练方法的流程示意图;
[0031]图2是根据本公开实施例的针对样本图像进行目标检测的处理流程示意图;
[0032]图3是根据本公开实施例的样本图像的获取示意图;
[0033]图4是根据本公开实施例的交叠面积的示意图;
[0034]图5是根据本公开实施例的在原始图像包括多个待检测目标的情况下,确定样本图像的示意图;
[0035]图6是根据本公开实施例的目标检测方法的流程示意图;
[0036]图7是根据本公开实施例的目标检测模型的应用示意图;
[0037]图8是根据本公开实施例的目标检测模型的训练装置的结构示意图;
[0038]图9是根据本公开实施例的目标检测装置的结构示意图;
[0039]图10是根据本公开实施例的目标检测模型的训练方法的场景示意图;
[0040]图11是根据本公开实施例的目标检测方法的场景示意图;
[0041]图12是用来实现本公开实施例的目标检测模型的训练方法和/或目标检测方法的
电子设备的结构示意图。
具体实施方式
[0042]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0043]本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0044]相关技术中,大模型包括多个任务,例如目标检测、图像分类和图像分割等。相关技术中,掩码技术已经广泛应用于图像识别、自监督预训练等领域。但是,因为大模型中目标检测任务复杂性的问题,没有将掩码技术应用于目标检测任务。
[0045]相关技术中,掩码技术具体是指将输入图像划分为图像块(patch),随机生成一部分掩码,将掩码保留部分(即本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标检测模型的训练方法,包括:获取每个样本图像的多个可用未掩码区域以及所述多个可用未掩码区域的位置信息;获取每个样本图像的所述多个可用未掩码区域对应的目标标签;将每个样本图像的所述多个可用未掩码区域以及所述位置信息输入待训练模型,得到每个样本图像的所述多个可用未掩码区域的特征图;基于每个样本图像的所述多个可用未掩码区域的特征图得到每个样本图像的目标特征图;基于每个样本图像的所述目标特征图以及所述多个可用未掩码区域对应的目标标签对所述待训练模型进行训练,得到目标检测模型。2.根据权利要求1所述的方法,还包括:获取多个原始图像;对每个原始图像进行随机掩码,得到每个原始图像的多个未掩码区域;将所述多个未掩码区域满足预设条件的原始图像,确定为所述样本图像。3.根据权利要求2所述的方法,其中,所述将所述多个未掩码区域满足预设条件的原始图像,确定为所述样本图像,包括:确定每个原始图像中待检测目标所在区域和所述多个未掩码区域的交叠面积的量化值;将所述量化值不小于预设阈值的原始图像,确定为所述样本图像。4.根据权利要求3所述的方法,其中,所述量化值等于所述待检测目标所在区域的第一面积和所述多个未掩码区域的第二面积的交集,与所述第一面积的比值。5.根据权利要求3所述的方法,其中,在所述原始图像包括多个待检测目标的情况下,所述将所述量化值不小于预设阈值的原始图像,确定为所述样本图像,还包括:响应于检测到所述原始图像中存在所述量化值小于所述预设阈值的多个第一未掩码区域,去除所述原始图像中所述多个第一未掩码区域以及所述原始图像的所述多个第一未掩码区域对应的第一待检测目标的目标标签;保留所述原始图像中所述量化值不小于所述预设阈值的多个第二未掩码区域以及所述原始图像的所述多个第二未掩码区域对应的第二待检测目标的目标标签。6.根据权利要求5所述的方法,其中,所述获取每个样本图像的多个可用未掩码区域,包括:将每个样本图像的所述量化值不小于所述预设阈值的所述多个第二未掩码区域,作为每个样本图像的所述多个可用未掩码区域;其中,所述获取每个样本图像的所述多个可用未掩码区域对应的目标标签,包括:将每个样本图像的所述多个第二未掩码区域对应的第二待检测目标的目标标签,作为每个样本图像的所述多个可用未掩码区域的目标标签。7.根据权利要求1所述的方法,其中,所述基于每个样本图像的所述多个可用未掩码区域的特征图得到每个样本图像的目标特征图,包括:基于每个样本图像的所述多个可用未掩码区域的位置信息,将每个样本图像的所述多个可用未掩码区域的特征图填充到对应样本图像的第一位置;将预设特征图填充到对应样本图像的第二位置,所述第二位置是所述第一位置之外的
位置;基于每个样本图像的所述第一位置的特征图和所述第二位置的所述预设特征图,得到每个样本图像的所述目标特征图。8.根据权利要求1至7任一项所述的方法,其中,所述目标检测模型包括骨干网络和头网络;所述骨干网络用于基于每个样本图像的所述多个可用未掩码区域得到每个样本图像的所述多个可用未掩码区域的特征图,所述待训练模型包括所述骨干网络;所述头网络用于基于每个样本图像的所述目标特征图输出每个样本图像的目标检测结果。9.一种目标检测方法,包括:获取待检测图像;将所述待检测图像输入目标检测模型,得到所述目标检测模型输出的所述待检测图像的目标检测结果;其中,所述目标检测模型基于权利要求1至8任一项所述的目标检测模型的训练方法训练得到。10.一种目标检测模型的训练装置,包括:第一获取模块,用于获取每个样本图像的多个可用未掩码区域以及所述多个可用未掩码区域的位置信息;第二获取模块,用于获取每个样本图像的所述多个可用未掩码区域对应的目标标签;第一输入模块,用于将每个样本图像的所述多个可用未掩码区域以及所述位置信息输入待训练模型,得到每个样本图像的所述多个可用未掩码区域的特征图;第三获取模块,...

【专利技术属性】
技术研发人员:陈阳李弼希滕张刚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1