一种基于样本筛选的无标注车辆图片分类方法技术

技术编号:24758063 阅读:82 留言:0更新日期:2020-07-04 09:35
本发明专利技术公开了一种基于样本筛选的无标注车辆图片分类方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)定义损失函数;5)模型训练;6)模型验证;7)模型应用。本发明专利技术减缓了现有车辆图片分类技术数据匮乏的缺点,通过结合特征提取网络提取图像高层语义信息的能力,对抗领域自适应网络对齐拉近两个域数据分布的能力,样本筛选损失函数从特征级别和标注级别筛选重要样本和异常样本并选择性增强的能力,以及通用分类器网络的精准分类能力,更准确高效地完成无标注车辆图片分类任务。

An unlabeled vehicle image classification method based on sample selection

【技术实现步骤摘要】
一种基于样本筛选的无标注车辆图片分类方法
本专利技术涉及计算机图像处理的
,尤其是指一种基于样本筛选的无标注车辆图片分类方法。
技术介绍
随着现代化进程的发展和国民消费水平的不断提高,交通车辆的数目日益增长,对于车辆的实时监控和管理仅靠人力过于繁琐,而借助计算机和深度学习完成图片分类和分析为智能交通管理带来了新的发展。在计算机图像分类领域,一个性能优异的深度学习分类模型往往是海量数据驱动的。但在某些特定场景下,比如城市交通车辆数据或者高速公路车辆数据,是需要通过专门的相关部门获取并且需要有经验的人士标注的;同时交通路况错综复杂,在一个例如城市道路场景下标注的数据集训练好了一个模型,应用到高速公路上做车辆分类性能却大打折扣。为了节约目标数据集(目标域,比如高速公路)的标注成本,常见的做法是,借助一个不同但相关的有标注的数据集(源域,比如城市道路),通过一个深度神经网络分类模型统一地拉近源域和目标域的数据分布来抽取这两个域的域不变特征,从而在目标域没有标注的情况下,将从源域学到的知识迁移到目标域。这种方法称为领域自适应分类。但这种基于本文档来自技高网...

【技术保护点】
1.一种基于样本筛选的无标注车辆图片分类方法,其特征在于,包括以下步骤:/n1)数据获取/n鉴于测试目标域数据集的标注成本昂贵,即高速公路的目标域数据集的标注成本昂贵,需要借助一个不同但相关的有标注的源域数据集,即城市道路的源域数据集,其中,高速公路的目标域数据集必须和城市道路的源域数据集中有相同类别的待分类的车辆,但是两个域车辆的角度和拍摄环境有区别;然后划分目标域数据集为训练数据集、验证数据集和测试数据集,源域数据集全为训练数据集;/n2)数据处理/n将源域数据集的图像、域标注和类别标注数据及目标域数据集的图像和域标注,通过预处理转化为训练车辆图片分类网络模型所需要的格式,然后成对地输入到...

【技术特征摘要】
1.一种基于样本筛选的无标注车辆图片分类方法,其特征在于,包括以下步骤:
1)数据获取
鉴于测试目标域数据集的标注成本昂贵,即高速公路的目标域数据集的标注成本昂贵,需要借助一个不同但相关的有标注的源域数据集,即城市道路的源域数据集,其中,高速公路的目标域数据集必须和城市道路的源域数据集中有相同类别的待分类的车辆,但是两个域车辆的角度和拍摄环境有区别;然后划分目标域数据集为训练数据集、验证数据集和测试数据集,源域数据集全为训练数据集;
2)数据处理
将源域数据集的图像、域标注和类别标注数据及目标域数据集的图像和域标注,通过预处理转化为训练车辆图片分类网络模型所需要的格式,然后成对地输入到车辆图片分类网络模型中;
3)模型构建
根据训练目标以及模型的输入输出形式,构造一个能够学习域不变特征的对抗深度神经网络模型,其由特征提取网络、对抗领域自适应网络和通用分类网络组成;
4)定义损失函数
根据训练目标以及模型的架构,除了必需的分类和域对抗度量损失函数,额外提出了特征层面和标注层面两个按样本重要性增强型损失函数;
5)模型训练
初始化模型各网络层的参数,不断迭代输入成对的源域和目标域训练样本,根据损失函数计算得到模型各网络层的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各网络层的参数进行更新;
6)模型验证
使用目标域数据集中的验证数据集对训练得到的模型进行验证,测试模型的泛化性能,调整超参数;
7)模型应用
使用目标域数据集中的测试数据集测试训练得到的模型,并应用到目标域车辆图片的分类任务中。


2.根据权利要求1所述的一种基于样本筛选的无标注车辆图片分类方法方法,其特征在于,所述步骤2)包括以下步骤:
2.1)将源域和目标域数据集中的图像缩放到长和宽为256×256像素大小;
2.2)在缩放后的图像上,随机裁剪得到224×224像素大小的矩形图像;
2.3)以0.5的概率随机水平翻转裁剪后的图像;
2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内;
2.5)将源域数据集中的类别标注数据转换为One-Hot向量,源域和目标域的域标注分别设为1和0。


3.根据权利要求1所述的一种基于样本筛选的无标注车辆图片分类方法方法,其特征在于,所述步骤3)包括以下步骤:
3.1)构造特征提取网络
特征提取网络相当于一个编码器,将步骤2)处理后的图像输入网络,能够提取其高层的域不变的语义信息并输出为一个低维的特征向量;特征提取网络是由一系列的残差模块、全连接层、批量归一化层、非线性激活层以及随机失活层级联而成,残差模块是由卷积层、批量归一化层、非线性激活层、池化层级联而成;残差模块能够防止梯度消失,提高网络学习能力;全连接层能够统筹全局信息;批量归一化层能够归一化特征,加速网络收敛;非线性激活层能够带来更多的非线性;随机失活层能够稀疏网络,防止过拟合,其随机失活概率为0.5;
3.2)构造对抗领域自适应网络
对抗领域自适应网络主要负责拉近源域数据高维特征分布和目标域数据高维特征分布之间的距离,迫使特征提取网络学习到两个域共有的域不变特征;对抗领域自适应网络由三层神经元块级联而成,而该神经元块由全连接层、批量归一化层、非线性激活层以及随机失活层构成;
对抗领域自适应网络的输入为特征提取网络所编码的低维向量,输出为预测出的域标注;如果特征向量来自源域数据集,则预期预测为1;如果特征向量来自目标域数据集,则预期预测为0;但是当网络在进行反向转播的时候,梯度通过对抗领域自适应网络而准备传播到特征提取网络,中间会经过一个梯度翻转层,该层能够将通过它的梯度取反,这样特征提取网络误认为自己抽取到了错误的特征,实现两个网络对抗更新,对抗学习迫使源域数据特征和目标域数据特征映射至同一隐空间,使得对抗领域自适应网络无法分辨出特征来自哪个域;
3.3)构造通用分类网络
通用分类网络主要负责对特征提取网络输出的低维向量作类别分类,其由一层全连接层构成,将低维向量经过矩阵运算得到一个类别长度的向量。该向量数值最大的位置所对应的类别,即为预测的类别。


4.根据权利要求1所述的一种基于样本筛选的无标注车辆图片分类方法方法,其特征在于,所述步骤4)包括以下步骤:
4.1)定义特征级调控损失函数
基于模型压缩领域的特征模长越小则信息量越小的原则,能够推测出特征提取网络的输出特征模长,反映了样本的重要程度;对于重要的样本,在对抗领域自适应网络中要被相应地增强,即特征提取网络中特征模越大,在对抗领域自适应网络中特征模长也相应越大,反之对于异常值在特征提取网络中特征模长偏小,这样在作对抗训练的时候其对抗领域自适应网络特征模长也会相应越小,因此,为了实现样本筛选和对抗特征选择性增强目的,特征级调控损失函数能够定义为对抗特征模长和提取特征模长的最小二乘损失,公式如下所示:



式中,n表示样本总...

【专利技术属性】
技术研发人员:贺海徐雪妙
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1