【技术实现步骤摘要】
分类器训练方法、装置、电子设备和存储介质
本专利技术涉及人工智能
,具体涉及一种分类器训练方法、装置、电子设备和存储介质。
技术介绍
图像分类是图像领域中最基本,也是最简单的任务。随着深度学习的出现和崛起,各图像分类任务的分类器大量出现,其中也涌现出许多高精度的分类器。目前,高精度分类器的出现,一方面是因为新技术的革新,而更多的要归功于分类器训练过程使用的大量的标注数据。想要训练出高精度的分类器,所需要的数据是海量的,虽然在现如今的互联网时代,大部分训练所需的数据是容易获取的,但是,对数据的标注却需要花费巨额的人力和财力,使得训练效率低下,训练成本高。
技术实现思路
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种分类器训练方法、装置、电子设备和存储介质,保证训练所得的分类器的精度的同时,能够大量降低训练过程中数据标注的成本,提升训练效率。第一方面,本申请的实施方式提供了一种分类器训练方法,包括:在初始样本集中随机选取a个样本,将a个样本组成第一样本集,并将除去a个样本的初始样本集作为第二样本集,其中,a为大于0的整数;对第一样本集中的a个样本进行标注,得到标注后的第一样本集,并将标注后的第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;根据第一分类器和预设的筛选策略,在第二样本集中筛选出b个样本,将b个样本组成第三样本集,并将除去b个样本的第二样本集作为第四样本集,其中,b为大于0且小于a的整数;对第三样本集中的b个样本 ...
【技术保护点】
1.一种分类器训练方法,其特征在于,所述训练方法包括:/n在初始样本集中随机选取a个样本,将所述a个样本组成第一样本集,并将除去所述a个样本的所述初始样本集作为第二样本集,其中,a为大于0的整数;/n对所述第一样本集中的所述a个样本进行标注,得到标注后的所述第一样本集,并将标注后的所述第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;/n根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,将所述b个样本组成第三样本集,并将除去所述b个样本的所述第二样本集作为第四样本集,其中,b为大于0且小于a的整数;/n对所述第三样本集中的所述b个样本进行标注,得到标注后的所述第三样本集;/n调用所述第一分类器对所述第四样本集进行标注,得到标注后的所述第四样本集;/n根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器。/n
【技术特征摘要】
1.一种分类器训练方法,其特征在于,所述训练方法包括:
在初始样本集中随机选取a个样本,将所述a个样本组成第一样本集,并将除去所述a个样本的所述初始样本集作为第二样本集,其中,a为大于0的整数;
对所述第一样本集中的所述a个样本进行标注,得到标注后的所述第一样本集,并将标注后的所述第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;
根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,将所述b个样本组成第三样本集,并将除去所述b个样本的所述第二样本集作为第四样本集,其中,b为大于0且小于a的整数;
对所述第三样本集中的所述b个样本进行标注,得到标注后的所述第三样本集;
调用所述第一分类器对所述第四样本集进行标注,得到标注后的所述第四样本集;
根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器。
2.根据权利要求1所述的训练方法,其特征在于,所述根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器,包括:
将标注后的所述第一样本集输入所述第一分类器,得到第一分类结果,根据所述第一分类结果和标注后的所述第一样本集确定第一损失结果;
将标注后的所述第三样本集输入所述第一分类器,得到第三分类结果,根据所述第三分类结果和标注后的所述第三样本集确定第三损失结果;
将标注后的所述第四样本集输入所述第一分类器,得到第四分类结果,根据所述第四分类结果和标注后的所述第四样本集确定第四损失结果;
根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练,获取所述目标分类器。
3.根据权利要求2所述的训练方法,其特征在于,所述根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练,获取所述目标分类器,包括:
获取多组权值,所述多组权值中的每一组权值分别包括第一权值、第二权值和第三权值,其中,所述第一权值对应于所述第一损失结果,所述第二权值对应于所述第三损失结果,所述第三权值对应于所述第四损失结果;
根据所述多组权值中的每一组权值,分别对所述第一损失结果、所述第三损失结果和所述第四损失结果进行加权求和,得到多个第二损失结果,其中,所述多个第二损失结果和所述多组权值一一对应;
分别根据所述多个第二损失结果中的每个第二损失结果对所述第一分类器进行训练,得到多个第二分类器,其中,所述多个第二分类器与所述多个第二损失结果一一对应;
将验证集分别输入所述多个第二分类器中的每个第二分类器,确定所述每个第二分类器的正确率,将所述正确率最高的第二分类器作为所述目标分类器。
4.根据权利要求3所述的训练方法,其特征在于,所述获取多组权值,包括:
确定所述第一样本集的样本数量a与所述第三样本集的样本数量b的商c;
将所述第一权值设定为超参d;
确定第二权值的取值范围为大于且等于所述超参d,小于且等于所述超参d与所述商c的积,并在所述取值范围内随机选取一个值作为所述第二权值;
确定第三权值的取值范围为大于且等于0,小于且等于所述超参d,并在所述取值范围内随机选取一个值作为所述第三权值。
5.根据权利要求1-4中任意一项所述的训练方法,其特征在于,所述根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,包括:
将所述第二样本集中的多个样本中的每个样本,分别输入所述第一分类器,得到多个样本得分,其中,所述多个样本得分与所述第二样本集中的多个样本一一对应;
将所述多个样本得分...
【专利技术属性】
技术研发人员:潘浩,庄伯金,刘玉宇,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。