【技术实现步骤摘要】
基于样本生成和域适应的多场景运动目标检测方法及装置
本专利技术涉及计算机领域,尤其涉及一种基于样本生成和域适应的多场景运动目标检测方法及装置。
技术介绍
运动目标检测是指将图像序列或视频中发生空间位置变化的物体作为前景提出并标示的过程,在现实场景中通过区分前背景,对正在运动的目标进行实时检测,广泛应用于智能监控、多媒体应用等领域。运动目标检测技术在对视力障碍人群进行辅助感知上也具有重要作用,可以有效避免视障患者在行走过程中被运动物体撞到,提升他们出行的安全性。现有基于深度学习的运动目标检测方案首先融合CNN提取的图像特征和SIFT光流特征,然后基于高斯过程回归超分辨率重建CNN光流,并对光流进行加权平均处理,最后结合自适应阈值进行高精度运动目标检测。然而,现有技术无法自动覆盖多种场景,适用场景范围依赖于数据采集,需要花费巨大的人力物力在多种常见场景下采集大量的数据。对于训练数据中没有覆盖到的新场景,现有方法的效果会出现明显的下降。
技术实现思路
本专利技术旨在提供一种克服上述问题或者至少部分地解决上述问题的基于样本生成和域适应的多场景运动目标检测方法及装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种基于样本生成和域适应的多场景运动目标检测方法,包括:采集原始数据,其中,原始数据为视频图像,包括主体数据和待增广数据,主体数据进行运动目标标注,待增广数据无需进行运动目标标注;将待增广数据利用数据生成模型进行数据生成,得到增广数据;融合原 ...
【技术保护点】
1.一种基于样本生成和域适应的多场景运动目标检测方法,其特征在于,包括:/n采集原始数据,其中,所述原始数据为视频图像,包括主体数据和待增广数据,所述主体数据进行运动目标标注,所述待增广数据无需进行运动目标标注;/n将所述待增广数据利用数据生成模型进行数据生成,得到增广数据;/n融合所述原始数据以及所述增广数据并进行切分,按照预设比例划分训练集、验证集和测试集;/n利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型;/n对于数据源域中包含的常见场景,使用所述运动目标检测模型进行检测,对于数据源域中不包含的新场景,使用域适应方法进行模型迁移,将所述运动目标检测模型扩展至目标域后进行检测。/n
【技术特征摘要】
1.一种基于样本生成和域适应的多场景运动目标检测方法,其特征在于,包括:
采集原始数据,其中,所述原始数据为视频图像,包括主体数据和待增广数据,所述主体数据进行运动目标标注,所述待增广数据无需进行运动目标标注;
将所述待增广数据利用数据生成模型进行数据生成,得到增广数据;
融合所述原始数据以及所述增广数据并进行切分,按照预设比例划分训练集、验证集和测试集;
利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型;
对于数据源域中包含的常见场景,使用所述运动目标检测模型进行检测,对于数据源域中不包含的新场景,使用域适应方法进行模型迁移,将所述运动目标检测模型扩展至目标域后进行检测。
2.根据权利要求1所述的方法,其特征在于,所述将所述待增广数据利用数据生成模型进行数据生成,得到增广数据包括:
利用数据生成网络将所述主体数据和所述待增广数据生成待标注增广数据,利用数据标注迁移模块将所述主体数据中的标注迁移至所述待标注增广数据中,得到所述增广数据。
3.根据权利要求2所述的方法,其特征在于,所述数据生成网络采用循环生成对抗网络,包括第一生成器和第一判别器以及第二生成器和第二判别器,所述第一生成器和所述第一判别器与所述第二生成器和所述第二判别器具有对称性,所述第一生成器基于所述主体场景生成第二场景数据,所述第二生成器基于第二场景数据生成第一场景数据,所述第一判别器和所述第二判别器分别用于判断生成的图像数据为生成图像或原始采集图像;所述第一生成器和所述第二生成器采用同种损失函数进行监督,其中,所述损失函数包括:对抗损失和循环一致性损失;
所述数据标注迁移模块通过物体的结构一致性将标注内容直接从源图像向目标图像进行迁移。
4.根据权利要求1所述的方法,其特征在于,所述基于光流网络和卷积神经网络的运动目标检测模型包括:基于FlowNet的光流检测网络和以EfficientNet为骨干网络的CNN特征提取网络。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练集和所述测试集训练和测试基于光流网络和卷积神经网络的运动目标检测模型包括:
在训练阶段,随机采样所述视频图像中提取的一对图像帧,分别为当前图像帧和图像关键帧,将所述图像关键帧送入所述CNN特征提取网络提取深层特征,对于所述当前图像帧,计算所述当前图像帧与所述图像关键帧的光流,利用光流将所述图像关键帧的深层特征通过双线性插值方法传播至当前图像帧,两路网络各自连接头部检测器进行目标检测任务的训练;其中,所述视频图像分为关键帧和非关键帧两类,关键帧数量远小于非关键帧;
在测试阶段,对于每张关键帧图像,使用所述CNN特征提取网络进行预测,对于非关键帧图像,使用所述光流检测网络进行预测。
6.根据权利要求1所述的方法,其特征在于,所述域适应方法包括:
输入视频图像帧,通过卷积或光流网络得到深度特征图,将所述深度特征图通过两个不同级别的域分类器执行如下操作:一、继续通过区域建议网络,感兴趣区域池化层和全连接层得到进行分类和定位前的最终特征,所述最终特征通过一个梯度反转层和全连接层后进行实例级别的域分类;二、直接通过一个梯度反转层和卷积层后进行图像级别的域分类。
7.根据权利要求6所述的方法,其特征在于,还包括:当使用所述运动目标检测模型进行检测,检测场景为从未出现过的新场景时,将源场景和目标场景标记为不同类别,训练所述两个不同级别的域分类器。
8.一种基于样本生成和域适应的多场景运动目标检测装置,其特征在于,包括:<...
【专利技术属性】
技术研发人员:陈海鹏,俞益洲,李一鸣,乔昕,
申请(专利权)人:北京深睿博联科技有限责任公司,杭州深睿博联科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。