分类器训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28980661 阅读:13 留言:0更新日期:2021-06-23 09:27
本申请具体公开了一种分类器训练方法、装置、电子设备和存储介质,其中,训练方法包括:在初始样本集中随机选取a个样本,将a个样本组成第一样本集,并将除去a个样本的初始样本集作为第二样本集;对第一样本集中的a个样本进行标注,并将标注后的第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;根据第一分类器和预设的筛选策略,在第二样本集中筛选出b个样本,将b个样本组成第三样本集,并将除去b个样本的第二样本集作为第四样本集;对第三样本集中的b个样本进行标注;调用第一分类器对第四样本集进行标注;根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练,获取目标分类器。

【技术实现步骤摘要】
分类器训练方法、装置、电子设备和存储介质
本专利技术涉及人工智能
,具体涉及一种分类器训练方法、装置、电子设备和存储介质。
技术介绍
图像分类是图像领域中最基本,也是最简单的任务。随着深度学习的出现和崛起,各图像分类任务的分类器大量出现,其中也涌现出许多高精度的分类器。目前,高精度分类器的出现,一方面是因为新技术的革新,而更多的要归功于分类器训练过程使用的大量的标注数据。想要训练出高精度的分类器,所需要的数据是海量的,虽然在现如今的互联网时代,大部分训练所需的数据是容易获取的,但是,对数据的标注却需要花费巨额的人力和财力,使得训练效率低下,训练成本高。
技术实现思路
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种分类器训练方法、装置、电子设备和存储介质,保证训练所得的分类器的精度的同时,能够大量降低训练过程中数据标注的成本,提升训练效率。第一方面,本申请的实施方式提供了一种分类器训练方法,包括:在初始样本集中随机选取a个样本,将a个样本组成第一样本集,并将除去a个样本的初始样本集作为第二样本集,其中,a为大于0的整数;对第一样本集中的a个样本进行标注,得到标注后的第一样本集,并将标注后的第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;根据第一分类器和预设的筛选策略,在第二样本集中筛选出b个样本,将b个样本组成第三样本集,并将除去b个样本的第二样本集作为第四样本集,其中,b为大于0且小于a的整数;对第三样本集中的b个样本进行标注,得到标注后的第三样本集;调用第一分类器对第四样本集进行标注,得到标注后的第四样本集;根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练,获取目标分类器。第二方面,本申请的实施方式提供了一种分类器训练装置,包括:样本集划分模块,用于在初始样本集中随机选取a个样本,将a个样本组成第一样本集,并将除去a个样本的初始样本集作为第二样本集,其中,a为大于0的整数;标注模块,用于对第一样本集中的a个样本进行标注,得到标注后的第一样本集,并将标注后的第一样本集中的a个样本输入预设的初始分类器进行训练,得到第一分类器;样本集划分模块,还用于根据第一分类器和预设的筛选策略,在第二样本集中筛选出b个样本,将b个样本组成第三样本集,并将除去b个样本的第二样本集作为第四样本集,其中,b为大于0且小于a的整数;标注模块,还用于对第三样本集中的b个样本进行标注,得到标注后的第三样本集,以及调用第一分类器对第四样本集进行标注,得到标注后的第四样本集;训练模块,用于根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练,获取目标分类器。第三方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。第四方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。第五方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。实施本申请实施方式,具有如下有益效果:在本申请实施方式中,首先,通过选取初始样本集中的部分样本进行标记,并通过该标记后的部分样本训练出初始分类器。然后,通过该初始分类器和筛选规则,在初始样本集中剩余的样本中再次筛选出部分样本进行标记,并调用该初始分类器对初始样本集中最后剩余的样本进行标记。最后,通过得到的3个标记后的样本集,对初始分类器进行训练,得到最终分类器。由此,只需要对少量的样本进行标记,即可完成分类器的训练,能够大量降低训练过程中数据标注的成本,提升训练效率。同时,在训练过程中,也充分利用了未标注的数据,保证了最终分类器的精度。附图说明为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施方式提供的一种分类器训练装置的硬件结构示意图;图2为本申请实施方式提供的一种分类器训练方法的流程示意图;图3为本申请实施方式提供的一种根据第一分类器和预设的筛选策略,在第二样本集中筛选出b个样本的方法的流程示意图;图4为本申请实施方式提供的一种第二样本集中的多个样本的样本空间分布示意图;图5为本申请实施方式提供的一种根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练的方法的流程示意图;图6为本申请实施方式提供的一种循环训练的方法的流程示意图;图7为本申请实施方式提供的一种分类器训练装置的功能模块组成框图;图8为本申请实施方式提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。参阅图1,图1为本申请实施方式提供的一种分类器训练装置的硬件结构示意图。该分类器训练装置100包括至少一个处理器101,通信线路102,存储器103以及至少一个通信接口104。在本实施方式中,处理器101,可以是一个通用中央处理器(centralprocessingunit,CPU),微处理器,特定应用集成电路(application-specificintegratedcircuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。通信线路102,可以包括一通路,在上述组件之间传送信息。通信接口104,可以是任何收发器一类的装置(如天本文档来自技高网...

【技术保护点】
1.一种分类器训练方法,其特征在于,所述训练方法包括:/n在初始样本集中随机选取a个样本,将所述a个样本组成第一样本集,并将除去所述a个样本的所述初始样本集作为第二样本集,其中,a为大于0的整数;/n对所述第一样本集中的所述a个样本进行标注,得到标注后的所述第一样本集,并将标注后的所述第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;/n根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,将所述b个样本组成第三样本集,并将除去所述b个样本的所述第二样本集作为第四样本集,其中,b为大于0且小于a的整数;/n对所述第三样本集中的所述b个样本进行标注,得到标注后的所述第三样本集;/n调用所述第一分类器对所述第四样本集进行标注,得到标注后的所述第四样本集;/n根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器。/n

【技术特征摘要】
1.一种分类器训练方法,其特征在于,所述训练方法包括:
在初始样本集中随机选取a个样本,将所述a个样本组成第一样本集,并将除去所述a个样本的所述初始样本集作为第二样本集,其中,a为大于0的整数;
对所述第一样本集中的所述a个样本进行标注,得到标注后的所述第一样本集,并将标注后的所述第一样本集中的a个样本输入初始分类器进行训练,得到第一分类器;
根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,将所述b个样本组成第三样本集,并将除去所述b个样本的所述第二样本集作为第四样本集,其中,b为大于0且小于a的整数;
对所述第三样本集中的所述b个样本进行标注,得到标注后的所述第三样本集;
调用所述第一分类器对所述第四样本集进行标注,得到标注后的所述第四样本集;
根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器。


2.根据权利要求1所述的训练方法,其特征在于,所述根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练,获取目标分类器,包括:
将标注后的所述第一样本集输入所述第一分类器,得到第一分类结果,根据所述第一分类结果和标注后的所述第一样本集确定第一损失结果;
将标注后的所述第三样本集输入所述第一分类器,得到第三分类结果,根据所述第三分类结果和标注后的所述第三样本集确定第三损失结果;
将标注后的所述第四样本集输入所述第一分类器,得到第四分类结果,根据所述第四分类结果和标注后的所述第四样本集确定第四损失结果;
根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练,获取所述目标分类器。


3.根据权利要求2所述的训练方法,其特征在于,所述根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练,获取所述目标分类器,包括:
获取多组权值,所述多组权值中的每一组权值分别包括第一权值、第二权值和第三权值,其中,所述第一权值对应于所述第一损失结果,所述第二权值对应于所述第三损失结果,所述第三权值对应于所述第四损失结果;
根据所述多组权值中的每一组权值,分别对所述第一损失结果、所述第三损失结果和所述第四损失结果进行加权求和,得到多个第二损失结果,其中,所述多个第二损失结果和所述多组权值一一对应;
分别根据所述多个第二损失结果中的每个第二损失结果对所述第一分类器进行训练,得到多个第二分类器,其中,所述多个第二分类器与所述多个第二损失结果一一对应;
将验证集分别输入所述多个第二分类器中的每个第二分类器,确定所述每个第二分类器的正确率,将所述正确率最高的第二分类器作为所述目标分类器。


4.根据权利要求3所述的训练方法,其特征在于,所述获取多组权值,包括:
确定所述第一样本集的样本数量a与所述第三样本集的样本数量b的商c;
将所述第一权值设定为超参d;
确定第二权值的取值范围为大于且等于所述超参d,小于且等于所述超参d与所述商c的积,并在所述取值范围内随机选取一个值作为所述第二权值;
确定第三权值的取值范围为大于且等于0,小于且等于所述超参d,并在所述取值范围内随机选取一个值作为所述第三权值。


5.根据权利要求1-4中任意一项所述的训练方法,其特征在于,所述根据所述第一分类器和预设的筛选策略,在所述第二样本集中筛选出b个样本,包括:
将所述第二样本集中的多个样本中的每个样本,分别输入所述第一分类器,得到多个样本得分,其中,所述多个样本得分与所述第二样本集中的多个样本一一对应;
将所述多个样本得分...

【专利技术属性】
技术研发人员:潘浩庄伯金刘玉宇
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1