检测模型的训练方法、目标检测方法、装置、设备和介质制造方法及图纸

技术编号:37122577 阅读:9 留言:0更新日期:2023-04-01 05:18
本公开提供了一种检测模型的训练方法,涉及人工智能技术领域,尤其涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务场景下。具体实现方案为:将样本图像输入第一检测模型,得到第一骨干网络输出特征;对第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征;根据第二查询特征和第一查询特征,得到查询损失;根据第二键特征和第一键特征,得到键损失;根据第二值特征和第一值特征,得到值损失,其中,第二检测模型的参数量大于第一检测模型的参数量;以及根据查询损失、键损失和值损失,训练第一检测模型。本公开还提供了一种目标检测方法、装置、电子设备和存储介质。质。质。

【技术实现步骤摘要】
检测模型的训练方法、目标检测方法、装置、设备和介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务场景下。更具体地,本公开提供了一种检测模型的训练方法、目标检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,深度学习模型的应用场景不断增加。可以基于模型蒸馏技术,提升检测模型的目标检测能力。

技术实现思路

[0003]本公开提供了一种检测模型的训练方法、目标检测方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种检测模型的训练方法,该方法包括:将样本图像输入第一检测模型,得到第一骨干网络输出特征;对第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征;根据第二查询特征和第一查询特征,得到查询损失;根据第二键特征和第一键特征,得到键损失;根据第二值特征和第一值特征,得到值损失,其中,第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的,第二检测模型的参数量大于第一检测模型的参数量;以及根据查询损失、键损失和值损失,训练第一检测模型。
[0005]根据本公开的另一方面,提供了一种目标检测方法,该方法包括:将目标图像输入第一检测模型,得到目标检测结果,其中,目标检测结果包括目标图像中目标对象的目标检测框,目标检测框用于指示目标对象所处的区域,其中,第一检测模型是利用本公开提供的方法训练的。
[0006]根据本公开的另一方面,提供了一种检测模型的训练装置,该装置包括:第一获得模块,用于将样本图像输入第一检测模型,得到第一骨干网络输出特征;卷积处理模块,用于对第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征;第二获得模块,用于根据第二查询特征和第一查询特征,得到查询损失;第三获得模块,用于根据第二键特征和第一键特征,得到键损失;第四获得模块,用于根据第二值特征和第一值特征,得到值损失,其中,第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的,第二检测模型的参数量大于第一检测模型的参数量;以及训练模块,用于根据查询损失、键损失和值损失,训练第一检测模型。
[0007]根据本公开的另一方面,提供了一种目标检测装置,该装置包括:第五获得模块,用于将目标图像输入第一检测模型,得到目标检测结果,其中,目标检测结果包括目标图像中目标对象的目标检测框,目标检测框用于指示目标对象所处的区域,其中,第一检测模型是利用本公开提供的装置训练的
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至
少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开提供的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开一个实施例的检测模型的示意图;
[0014]图2是根据本公开的一个实施例的检测模型的训练方法的流程图;
[0015]图3是根据本公开的一个实施例的检测模型的骨干网络的示意图;
[0016]图4是根据本公开的一个实施例的检测模型的中间网络的示意图;
[0017]图5是根据本公开的一个实施例的检测模型的示意图;
[0018]图6是根据本公开的一个实施例的目标检测方法的流程图;
[0019]图7是根据本公开的一个实施例的检测模型的训练装置的框图;
[0020]图8是根据本公开的一个实施例的目标检测装置的框图;以及
[0021]图9是根据本公开的一个实施例的可以应用检测模型的训练方法和/或目标检测方法的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]教师模型可以为大模型,是具有更多参数、效果更好的模型。但教师模型参数量太多,响应速度较慢。在对模型有流量、快速处理等性能要求时,教师模型难以应用于相关场景。
[0024]模型蒸馏也可以称为知识蒸馏,是指从教师模型中学习到有用的知识来训练学生模型。在不损失太多性能的情况下,基于模型蒸馏技术可以进行模型压缩。在蒸馏过程中,学生模型可以学习到教师模型的泛化能力,也可以获得与教师模型相近的性能。在保留模型精度的同时,基于模型蒸馏技术,可以压缩模型,提升模型处理速度。下面将结合相关实施例来说明模型蒸馏的一些方式。
[0025]在一些实施例中,可以将教师模型输出的特征和结果与学生模型输出的特征和结果对齐。例如,可以将教师模型输出的结果作为学生模型的标签。又例如,可以根据教师模型输出的结果和学生模型输出的结果之间的数据分布差异,确定学生模型的损失值。
[0026]在一些实施例中,可以在学生模型中加入分别基于通道注意力和空间注意力的卷
积层,将这些卷积层输出的特征图与教师模型输出的特征图对齐,以进行模型蒸馏。
[0027]在一些实施例中,可以将教师模型输出的全局特征和学生模型输出的全局特征对齐。
[0028]可以理解,教师模型的结构可以与学习模型的结构相同。例如,教师模型的骨干网络(Backbone)可以是基于Transformer模型构建的。学生模型的骨干网络也可以是基于Transformer模构建的。由此,可以进行高效的模型蒸馏。但,教师模型的结构也可以与学生模型的结构相异。在结构不同的情况下,上文提及的模型蒸馏的效率可能较低。
[0029]下面将结合相关实施例来说明本公开的模型蒸馏方式的整体架构。
[0030]图1是根据本公开一个实施例的检测模型的示意图。
[0031]在一些实施例中,检测模型可以包括骨干网络(Backbone)、中间网络(Neck)和检测网络(Head)。如图1所示,第一检测模型110可以包括第一骨干网络111、第一中间网络112和第一检测网络113。第二检测模型120可以包括第二骨干网络121、第二中间网络122和第二检测网络123。例如,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测模型的训练方法,包括:将样本图像输入第一检测模型,得到第一骨干网络输出特征;对所述第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征;根据第二查询特征和所述第一查询特征,得到查询损失;根据第二键特征和所述第一键特征,得到键损失;根据第二值特征和所述第一值特征,得到值损失,其中,所述第二查询特征、所述第二键特征和所述第二值特征是利用第二检测模型处理所述样本图像得到的,所述第二检测模型的参数量大于第一检测模型的参数量;以及根据所述查询损失、所述键损失和所述值损失,训练所述第一检测模型。2.根据权利要求1所述的方法,其中,所述对所述第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征包括:对所述第一骨干网络输出特征进行第一卷积处理,得到所述第一查询特征;对所述第一骨干网络输出特征进行第二卷积处理,得到所述第一键特征;以及对所述第一骨干网络输出特征进行第三卷积处理,得到所述第一值特征。3.根据权利要求1所述的方法,其中,所述将样本图像输入第一检测模型,得到第一骨干网络输出特征包括:将所述样本图像输入所述第一检测模型,得到所述第一骨干网络输出特征、第一中间网络输出特征和第一检测结果。4.根据权利要求3所述的方法,其中,所述第一检测模型包括第一骨干网络、第一中间网络和第一检测网络,所述第二检测模型包括第二骨干网络、第二中间网络和第二检测网络,所述第二查询特征、所述第二键特征和所述第二值特征是利用所述第二骨干网络处理所述样本图像得到的,所述第一骨干网络的结构与所述第二骨干网络的结构相异。5.根据权利要求4所述的方法,其中,所述将所述样本图像输入所述第一检测模型,得到所述第一骨干网络输出特征、第一中间网络输出特征和第一检测结果包括:将所述样本图像输入所述第一骨干网络,得到所述第一骨干网络输出特征;将所述第一骨干网络输出特征输入所述第一中间网络,得到所述第一中间网络输出特征;以及将所述第一中间网络输出特征输入所述第一检测网络,得到所述第一检测结果。6.根据权利要求3所述的方法,其中,所述根据所述查询损失、所述键损失和所述值损失,训练所述第一检测模型包括:根据所述查询损失、所述键损失和所述值损失,得到骨干网络输出损失;根据第二中间网络输出特征和所述第一中间网络输出特征,得到中间网络输出损失,其中,所述第二中间网络输出特征是利用所述第二检测模型处理第二骨干网络输出特征得到的,所述第二骨干网络输出特征是将所述第二查询特征、所述第二键特征和所述第二值特征融合得到的;以及根据所述骨干网络输出损失和所述中间网络输出损失,训练所述第一检测模型。
7.根据权利要求6所述的方法,其中,所述根据第二中间网络输出特征和所述第一中间网络输出特征,得到中间网络输出损失包括:对所述第一中间网络输出特征进行归一化处理,得到第一中间归一化特征;对所述第二中间网络输出特征进行归一化处理,得到第二中间归一化特征;以及根据所述第一中间归一化特征和所述第二中间归一化特征,得到所述中间网络输出损失。8.根据权利要求7所述方法,其中,所述根据所述第一中间归一化特征和所述第二中间归一化特征,得到所述中间网络输出损失包括:对所述第一中间归一化特征进行全局上下文处理,得到第一全局特征;对所述第二中间归一化特征进行全局上下文处理,得到第二全局特征;根据所述第一全局特征和所述第二全局特征,得到第一中间网络输出子损失;以及根据所述第一中间网络输出子损失,得到所述中间网络输出损失。9.根据权利要求8所述的方法,其中,所述对所述第一中间归一化特征进行全局上下文处理,得到第一全局特征包括:基于通道注意力机制处理所述第一中间归一化特征,得到第一通道注意力特征;基于空间注意力机制处理所述第一通道注意力特征,得到所述第一空间注意力特征;以及对所述第一空间注意力特征进行全局上下文处理,得到所述第一全局特征。10.根据权利要求8所述的方法,其中,所述对所述第二中间归一化特征进行全局上下文处理,得到第二全局特征包括:基于通道注意力机制处理所述第二中间归一化特征,得到第二通道注意力特征;基于空间注意力机制处理所述第二通道注意力特征,得到所述第二空间注意力特征;以及对所述第二空间注意力特征进行全局上下文处理,得到所述第二全局特征。11.根据权利要求6所述的方法,其中,所述根据第二中间网络输出特征和所述第一中间网络输出特征,得到中间网络输出损失包括:根据所述样本图像的标签指示的标注检测框位置,对所述第一中间网络输出特征进行掩码处理,得到第一中间掩码特征;根据所述样本图像的标签指示的标注检测框位置,对所述第二中间网络输出特征进行掩码处理,得到第二中间掩码特征;对所述第一中间掩码特征进行全局上下文处理,得到第一全局掩码特征;对所述第二中间掩码特征进行全局上下文处理,得到第二全局掩码特征;根据所述第一全局掩码特征和所述第二全局掩码特征,得到第二中间网络输出子损失;以及根据所述第二中间网络输出子损失,得到所述中间网络输出损失。12.根据权利要求6所述的方法,其中,所述根据所述骨干网络输出损失和所述中间网络输出损失,训练所述第一检测模型包括:根据第二检测结果和所述第一检测结果,得到蒸馏损失;根据所述样本图像的标签和所述第一检测结果,得到检测损失,其中,所述标签包括所
述样本图像中样本对象的标注检测框,所述标注检测框用于指示所述样本对象所处的区域;以及根据所述骨干网络输出损失、所述中间网络输出损失、所述蒸馏损失和所述检测损失,训练所述第一检测模型。13.一种目标检测方法,包括:将目标图像输入第一检测模型,得到目标检测结果,其中,所述目标检测结果包括所述目标图像中目标对象的目标检测框,所述目标检测框用于指示所述目标对象所处的区域,其中,所述第一检测模型是利用权利要求1至12任一项所述的方法训练的。14.一种检测模型的训练装置,包括:第一获得模块,用于将样本图像输入第一检测模型,得到第一骨干网络输出特征;卷积处理模块,用于对所述第一骨干网络输出特征分别进行至少一次卷积处理,得到第一查询特征、第一键特征和第一值特征;第二获得模块,用于根据第二查询特征和所述第一查询特征,得到查询损失;第三获得模块,用于根据第二键特征...

【专利技术属性】
技术研发人员:沈智勇赵一麟陆勤龚建
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1