一种用于云边端的目标检测网络构建方法及装置制造方法及图纸

技术编号:34542284 阅读:18 留言:0更新日期:2022-08-13 21:39
本发明专利技术公开了一种用于云边端的目标检测网络构建方法及装置,采集包含至少一个目标的训练图像,得到目标检测数据集;构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。本发明专利技术的目标检测网络构建方法,收敛快速、所需训练时间短,且得到的目标检测网络能够在云边端上实现高效运行。络能够在云边端上实现高效运行。络能够在云边端上实现高效运行。

【技术实现步骤摘要】
一种用于云边端的目标检测网络构建方法及装置


[0001]本专利技术涉及信息技术处理领域,具体涉及一种用于云边端的目标检测网络构建方法及装置。

技术介绍

[0002]目标检测领域中,CNN

based的检测器可分为3个基本组件:Backbone+Neck+Head,分别用于特征提取+多尺度特征聚合+检测头(用于分类回归),而Transformer

based的方法同样可分为:Backbone(+Neck)+Encoder(编码)+Decoder(解码),即特征提取(+多尺度特征聚合)+特征聚合+Query(查询)修正。
[0003]CNN

based方法多采用多对一的标签分配算法,因此都需要采用NMS进行后处理。而Transformer

based方法更符合检测任务的本质,即图像到集合的映射,不论从工业还是学术的角度有极大的发展潜力。
[0004]Transformer

based方法能捕获全局上下文信息,抽取更强有力的特征,可以直接融合向量,可以针对不同的任务在不同的表示子空间学习相关的信息。因此,在计算机视觉领域得到了迅速的发展。
[0005]但是,现有Transformer

based的方法在进行计算机视觉任务时,存在以下问题:(1)收敛速度慢:相比于CNN

based方法,Transformer

based方法的初始化随机性较大,通常需要训练更多的轮数才能达到同样的性能。(2)运行效率低:Transformer

based方法中Encoder环节的计算复杂度远远高于CNN

based方法中Neck的计算复杂度,导致Transformer

based方法的运行效率偏低。
[0006]在针对具体的场景中,研究者采用不同的方式对Transformer

base进行改进。如专利CN113673489A给出的基于级联Transformer的视频群体行为识别方法,由两级Transformer网络实现,第一级人体目标检测Transformer检测人体目标框并提取群体中具有判别性的个体特征,第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征,有效融合个体行为特征提取群体级别特征,最后通过多层感知机输出群体行为类别。
[0007]但是,当前的研究对于收敛速度慢、目标检测模型运行效率低的问题仍没有得到有效的解决。尤其是在云边端的目标检测应用中,传统的Transformer检测方法对算力要求过高,难以部署。
[0008]因此,如何构建一种目标检测网络,提高训练时的收敛速度、缩短所需训练时间,以实现在云边端上高效运行是本领域技术人员亟待解决的问题。

技术实现思路

[0009]针对上述现有技术中存在的缺陷,本专利技术提供了一种用于云边端的目标检测网络构建方法及装置,构建的目标检测网络基于前景响应得到初始化对象查询和初始化位置嵌入,并去除Transformer模型中编码器环节,简化并稀释解码器环节,以此来加速模型训练
的收敛速度,缩短训练时间,实现目标检测网络在云边端上高效运行。
[0010]第一方面,本专利技术提供一种用于云边端的目标检测网络构建方法,包括如下步骤:采集包含至少一个目标的训练图像,得到目标检测数据集;构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络;其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量。
[0011]进一步的,采集包含至少一个目标的训练图像之后,还包括:对训练图像中的目标信息进行标注,目标信息包括标注类别、标注中心点坐标及标注框。
[0012]进一步的,根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:随机选取目标检测数据集中的训练图像,输入主干网;主干网在训练图像中采样,形成多尺度目标特征图;多尺度目标特征图输入前景预测头,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息;重复如下步骤,直至初始网络收敛:向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,并用新的对象查询变量替代上一个对象查询变量,迭代训练过程。
[0013]进一步的,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息,具体包括:对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框;按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,根据目标特征初始化对象查询变量;按照初始参考框的大小和位置,初始化位置嵌入信息。
[0014]进一步的,稀疏解码器包括多个解码层,每个解码层包括细节感知采样子层、参考框子层和注意力子层;参考框子层用于对参考框进行编码,形成参考框向量组;细节感知采样子层用于基于参考框提取的参考特征图,得到细节感知向量组;注意力子层用于采用注意力机制将位置嵌入信息和对象查询变量融合,形成采样权重;细节感知向量组与采样权重相乘后,经暂退计算,得到权重对象查询变量,通过融合当前的参考框向量组、对象查询变量及权重对象查询变量,形成新的对象查询变量。
[0015]进一步的,向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,具体包括:将对象查询变量及位置嵌入信息相加并输入至注意力子层,其中注意力子层包括全连接单元及归一化单元;对象查询变量及位置嵌入信息相加后得到的量依次经过全连接和归一化处理,得到对象查询变量对应的采样权重;
采样权重与细节感知向量组相乘,经过暂退计算得到权重对象查询变量;将当前的权重对象查询变量、参考框向量组及对象查询变量相加,得到新的对象查询变量。
[0016]进一步的,稀疏解码器得到的细节感知向量组,包括:选取任一参考框,并依据选取的参考框截取任一尺度目标特征图,形成参考特征图;将参考特征图输入细节感知采样子层,依次经过细节感知采样子层的卷积单元及归一化单元后,形成注意力权重;将参考特征图与注意力权重按空间维度相乘,并进行全局池化,得到该参考特征图的细节感知向量;采用其他的参考框及任一尺度目标特征图,重复细节感知过程,得到全部参考框在多尺度目标特征图的细节感知向量,形成细节感知向量组。
[0017]进一步的,用新的对象查询变量替代上一个对象查询变量,迭代训练过程,具体包括:基于新的对象查询变量预测上一个参考框的调节量,形成新的参考框;采用新的参考框代替上一个参考框,用于进行下一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于云边端的目标检测网络构建方法,其特征在于,包括如下步骤:采集包含至少一个目标的训练图像,得到目标检测数据集;构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络;其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量。2.如权利要求1所述的构建方法,其特征在于,采集包含至少一个目标的训练图像之后,还包括:对训练图像中的目标信息进行标注,目标信息包括标注类别、标注中心点坐标及标注框。3.如权利要求1所述的构建方法,其特征在于,根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:随机选取目标检测数据集中的训练图像,输入主干网;主干网在训练图像中采样,形成多尺度目标特征图;多尺度目标特征图输入前景预测头,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息;重复如下步骤,直至初始网络收敛:向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,并用新的对象查询变量替代上一个对象查询变量,迭代训练过程。4.如权利要求3所述的构建方法,其特征在于,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息,具体包括:对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框;按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,根据目标特征初始化对象查询变量;按照初始参考框的大小和位置,初始化位置嵌入信息。5.如权利要求3所述的构建方法,其特征在于,稀疏解码器包括多个解码层,每个解码层包括细节感知采样子层、参考框子层和注意力子层;参考框子层用于对参考框进行编码,形成参考框向量组;细节感知采样子层用于基于参考框提取的参考特征图,得到细节感知向量组;注意力子层用于采用注意力机制将位置嵌入信息和对象查询变量融合,形成采样权重;细节感知向量组与采样权重相乘后,经暂退计算,得到权重对象查询变量,通过融合当前的参考框向量组、对象查询变量及权重对象查询变量,形成新的对象查询变量。6.如权利要求5所述的构建方法,其特征在于,向稀疏解码器输入对象查询变量及位置嵌入信息,并融合...

【专利技术属性】
技术研发人员:杨金明刘玺陈少哺卜荣季虎曾伟董庆森吴浩张翰李季黄鑫束长勇
申请(专利权)人:江苏祥泰电力实业有限公司国网江苏省电力有限公司泰州供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1