一种基于多层特征对齐的跨域目标检测方法技术

技术编号:22364520 阅读:113 留言:0更新日期:2019-10-23 04:49
本发明专利技术公开了一种基于多层特征对齐的跨域目标检测方法。首先,通过深度卷积神经网络在有边框标注的源域数据集上训练检测器。然后,将训练好的检测器作为预训练模型,并通过深度卷积神经网络VGG‑16对源域与没有边框标注的目标域的图片进行特征提取,使源域与目标与共享特征参数。其次,设计领域分类器,将提取到的多层源域与目标域的特征层作为领域分类器的输入,判断特征层是来自于源域还是目标域。再通过对抗生成网络的训练方式,使得源域与目标域的特征分布对齐,进而减少两个领域之间的数据偏差。最后,通过将检测器与判别器进行联合训练,从而得到最终的模型。本发明专利技术实现了将源域知识迁移到目标域,提升了无边框标注的目标域数据的检测精度。

A cross domain target detection method based on multi-layer feature alignment

The invention discloses a cross domain target detection method based on multi-layer feature alignment. First of all, the detector is trained on the data set of the source domain labeled by the deep convolution neural network. Then, the trained detector is used as the pre training model, and the source domain and the target domain are extracted by the deep convolution neural network VGg \u2011 16, so that the source domain and the target share the feature parameters. Secondly, the domain classifier is designed. The extracted multi-layer source domain and target domain feature layer are used as the input of domain classifier to determine whether the feature layer is from the source domain or the target domain. Then through the training method of the network, the feature distribution of the source domain and the target domain is aligned, and then the data deviation between the two domains is reduced. Finally, the final model is obtained by training the detector and the discriminator. The invention realizes the transfer of the source domain knowledge to the target domain, and improves the detection accuracy of the target domain data without border annotation.

【技术实现步骤摘要】
一种基于多层特征对齐的跨域目标检测方法
本专利技术涉及计算机视觉领域,特别是涉及一种基于多层特征对齐的跨域目标检测方法。技术背景近年来,随着深度神经网络的发展,基于数据驱动的计算机视觉,取得了重大进展。目标检测作为计算机视觉的基础任务,更是得到了研究人员广泛的关注,在人们的智能生活中扮演着越来越多的角色。例如,在智能驾驶中,通过3D目标检测可以实现过往车辆以及周边场景的快速的定位,从而汽车可以避开障碍物并顺利行驶;在智慧零售业务中,通过精确的目标检测,可以清点货架上的商品,实现无人销售,节省劳力;在智能小区中,通过车牌检测,可以快速识别过往车辆,从而实现自动放行。总而言之,目标检测,越来越成为我们生活中不可缺少的一部分。尽管基于数据驱动的目标检测任务取得了重大的进展,但是在实际生产应用中,却面临诸多的困难。基于深度卷积神经网络的目标检测算法,需要大量的边框标注与分类标注,而在实际场景业务中,从数据的收集到标注,需要耗费大量的人力物力。一方面,我们在许多场景中,如天气良好情况下的道路场景,已经收集了大量的数据,并且在相关业务中取得了不错的效果。另一方面,我们在某些特殊领域,如在少见的雾霾天气下的道路场景图片,却难以收集。如何将已有的大量数据应用到新的业务场景中,以节省人力物力,是我们面临的一项难题。目前,主要的解决方法有两类:弱监督的目标检测方法与基于领域对齐的方法。在弱监督的目标检测任务中,只用到了分类标注,故而实际的定位精度较差,在实际中难以使用。另一种是基于迁移学习的领域对齐方法。在这种方法中,通常采用使源域与目标域的第一或第二统计量距离最小,或者是将源域与目标与投影到一个共同的特征空间中,在度量二者的距离使其尽量小。然而,由于深度卷积神经网络的使用,源域与目标域均投影到高维的数据空间中,这种基于距离度量的方法往往难以有效,有时甚至会起到相反的作用。伴随着深度对抗生成网络的发展,有人将其用于域自适应中的特征对齐。受此启发,我们将对抗生成网络融入到目标检测网络中,将检测网络与对抗网络联合训练,使得在训练过程中,源域特征与目标域特征对齐,从而实现从将在源域上训练好的检测模型泛化到目标域数据中。目标检测作为计算机视觉中的基本任务,其主要包括两个过程,即定位和识别。自R-CNN提出以来,基于卷积神经网络的检测模型得到了迅速发展。目前主要有两类,即基于候选区域的目标检测方法与无候选区域的目标检测方法。在基于候选区域的检测模型中,其检测过程分为两步。首选使用区域提取网络得到感兴趣的候选区域,主要是通过判断该区域是否存在我们要检测的目标。在得到候选区域后,在通过分类和回归的方法对该区域进行分类并得到其坐标位置。这类检测器的代表,主要是R-CNN,fastR-CNN,fasterR-CNN以及MaskR-CNN等模型,其主要特点是检测精确,但速度较慢。无候选区域的检测方法,主要是通过在图片上划分网络,然后分别进行回归和分类处理处理,将定位与识别作为一个过程来实现,其典型代表就是yolo、SSD等。由于没有候选区域的提取过程,这类方法的速度较快,但精度较低。尽管这些基于全监督的检测方法均取得了不错的效果,但过于依赖大量的数据,不能有效利用已有的大量数据。而数据的收集到标注,均需要大量的人力物力。
技术实现思路
本专利技术主要解决的技术问题是提供一种多层域自适应的跨域目标检测方法,通过加入对抗生成网路,使得判别器无法分辨特征层来自于源域还是目标域,从而使得源域与目标域特征分布类似,进而将目标域上的标注信息迁移到源域数据集,以提升检测器在目标域上的性能。本专利技术提出了基于多层特征对齐的跨域目标检测方法,包括以下步骤:源域与目标域数据预处理、使用源域数据训练好一个检测模型、源域与目标域特征提取并对齐、联合训练域自适应网络与检测网络并得到最终的检测模型,具体而言,主要包括以下四个步骤:Step1:对源域数据和目标域数据进行预处理;具体为通过亮度、饱和度以及色调调整,随机裁剪固定区,随机裁剪随机大小,随机翻转固定角度和随机翻转随机角度,得到増广图片,再做归一化处理,并将图片裁剪到固定大小,使其尺寸为300×300。Step2:将预处理后的源域数据输入SSD检测模型,通过对有标注信息的源域数据进行端到端的训练,得到一个全监督的初始检测模型,并作为下一步训练的预训练模型;具体过程为:构建SSD检测模型,其以去掉全连接层的VGG16为基本网络模型,然后再加入Conv6、Conv7、Conv8、Conv9、Conv10和Conv11六个卷积层,并抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2作为特征层,将预处理的源域数据输入SSD检测模型进行特征提取,在每个特征层的每个像素点上生成尺度大小和长宽比不一的6个默认边框,对默认边框进行与标注边框进行匹配,得到训练过程中的正样本与负样本;首先,将与标注边框交并比最大的默认边框进行匹配,然后,对于默认边框,将标注边框与其交并比大于0.5的进行匹配;具体而言,Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2层的特图征上的默认边框尺寸所占原图比例大小为:式中,u=5表示进行预测的层数,smin取值0.2,smax取值0.9,sk表示第k个预测层的默认边框尺寸所占原图像的比例大小,在预测层Conv4_3上的默认边框尺寸所占原图像的比例大小为0.1,即当k=6时,sk=0.1,令Sk表示第k个预测层的默认边框尺寸,则Sk=300×sk;对于默认边框的长宽比,取αr={1,2,3,1/2,1/3},则第k层的前五个默认边框宽和高分别为和对于第k层的第六个默认边框Sk′长宽比取1,且有取S7=312,从而在每个预测层的每个像素点将会根据上述设置的尺寸大小的长宽比生成不同的默认边框;此外,每个预测的特征层的每个像素点将分别送入尺寸大小为3×3×qm的卷积核,以进一步得到分类置信得分与回归偏量,qm为第m层特征层的通道数;在训练过程中,目标损失函数为:其中,N为与标注边框相匹配的默认边框的个数,Lloc为定位损失函数,Lconf为分类置信度的损失量,α为正则化参数,x为输入图像,c为目标类别,l为模型预测边框,g为标注边框,对于定位损失函数,我们得到对默认边框的位置偏差,定义边框为{cx,cy,w,h},其中(cx,cy)为边框中心坐标,w和h分别为宽和高,设默认边框为d,则Lloc为:其中,分别为第j个标注边框的中心坐标、宽和高,分别为第i个默认边框的中心坐标、宽和高,为平滑函数,且有当时,第i个默认边框与第j个类别为k的标注边框相匹配,并将默认边框送入正样本集合Pos;否则,分类损失Lconf为softmax损失函数:其中,为第i个默认边框为p类的概率,第i个默认边框预测为背景时的分类得分,Neg表示匹配的负样本集合,在这里为背景;Pos表示匹配的正样本,为要检测的类别,当时,第i个默认边框与第j个类别为p的标注边框相匹配,并将默认边框送入正样本集合Pos;否则,并将默认边框送入负样本集合Neg;将预处理的源域数据输入SSD检测模型,通过以上过程,训练得到一个全监督的检测模型,并将训练得到的模型作为下一步训练的预训练模本文档来自技高网
...

【技术保护点】
1.一种基于多层特征对齐的跨域目标检测方法,其特征在于,包括以下步骤:Step1:对源域数据和目标域数据进行预处理;Step2:将预处理后的源域数据输入SSD检测模型,通过对有标注信息的源域数据进行端到端的训练,得到一个全监督的初始检测模型,并作为下一步训练的预训练模型;Step3:利用预训练模型对预处理后的源域数据和目标域数据进行特征提取;Step4:使用对抗生成网络实现源域与目标域多层特征对齐;Step5:将对抗生成网络即对齐网络模型与预训练模型联合训练,得到在源域数据集上训练好的最终检测模型。

【技术特征摘要】
1.一种基于多层特征对齐的跨域目标检测方法,其特征在于,包括以下步骤:Step1:对源域数据和目标域数据进行预处理;Step2:将预处理后的源域数据输入SSD检测模型,通过对有标注信息的源域数据进行端到端的训练,得到一个全监督的初始检测模型,并作为下一步训练的预训练模型;Step3:利用预训练模型对预处理后的源域数据和目标域数据进行特征提取;Step4:使用对抗生成网络实现源域与目标域多层特征对齐;Step5:将对抗生成网络即对齐网络模型与预训练模型联合训练,得到在源域数据集上训练好的最终检测模型。2.根据权利要求1所述的基于多层特征对齐的跨域目标检测方法,其特征在于,所述Step1中预处理是指对数据进行增广,具体为通过亮度、饱和度以及色调调整,随机裁剪固定区,随机裁剪随机大小,随机翻转固定角度和随机翻转随机角度,得到増广图片,再做归一化处理,并将图片裁剪到固定大小,使其尺寸为300×300。3.根据权利要求1所述的一种基于多层特征对齐的跨域目标检测方法,其特征在于,所述Step2的具体过程为:构建SSD检测模型,其以去掉全连接层的VGG16为基本网络模型,然后再加入Conv6、Conv7、Conv8、Conv9、Conv10和Conv11六个卷积层,并抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2作为特征层,将预处理的源域数据输入SSD检测模型进行特征提取,在每个特征层的每个像素点上生成尺度大小和长宽比不一的6个默认边框,对默认边框进行与标注边框进行匹配,得到训练过程中的正样本与负样本;首先,将与标注边框交并比最大的默认边框进行匹配,然后,对于默认边框,将标注边框与其交并比大于0.5的进行匹配;具体而言,Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2层的特图征上的默认边框尺寸所占原图比例大小为:式中,u=5表示进行预测的层数,smin取值0.2,smax取值0.9,sk表示第k个预测层的默认边框尺寸所占原图像的比例大小,在预测层Conv4_3上的默认边框尺寸所占原图像的比例大小为0.1,即当k=6时,sk=0.1,令Sk表示第k个预测层的默认边框尺寸,则Sk=300×sk;对于默认边框的长宽比,取αr={1,2,3,1/2,1/3},则第k层的前五个默认边框宽和高分别为和r=1,2,...,5,对于第k层的第六个默认边框Sk′长宽比取1,且有取S7=312,从而在每个预测层的每个像素点将会根据上述设置的尺寸大小的长宽比生成不同的默认边框;此外,每个预测的特征层的每个像素点将分别送入尺寸大小为3×3×qm的卷积核,以进一步得到分类置信得分与回归偏量,qm为第m层特征层的通道数;在训练过程中,目标损失函数为:其中,N为与标注边框相匹配的默认边框的个数,Lloc为定位损失函数,Lconf为分类置信度的损失量,α为正则化参数,x为输入图像,c为目标类...

【专利技术属性】
技术研发人员:王蒙李威
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1