【技术实现步骤摘要】
训练样本集生成方法、装置、设备以及存储介质
[0001]本申请涉及机器学习
,尤其涉及一种训练样本集生成方法、装置、设备以及存储介质。
技术介绍
[0002]在机器学习
中,神经网络模型由于其自身的设计天然存在灾难性遗忘问题。而持续学习技术就是用于解决灾难性遗忘问题,其目的是使得模型既能够学习到新的任务数据,同时又能在旧任务数据上有良好的表现。
[0003]但是,现有的持续学习技术中,训练样本集一般从新的任务数据对应的样本和旧任务数据的样本中均衡随机采样,由于旧任务数据数据量较大,导致最终的训练样本重复度可能较高,进而导致当前训练任务数据对应的训练样本集不够丰富。
[0004]申请内容
[0005]本申请的主要目的在于提供一种训练样本集生成方法、装置、设备以及存储介质,旨在解决现有持续学习方法的当前训练任务数据对应的训练样本集不够丰富的技术问题。
[0006]为实现上述目的,第一方面,本申请提供一种训练样本集生成方法,方法包括:
[0007]获取当前训练任务的待选样本数据; ...
【技术保护点】
【技术特征摘要】
1.一种训练样本集生成方法,其特征在于,所述方法包括:获取当前训练任务的待选样本数据;所述待选样本数据包括新增样本数据和旧训练任务的历史样本数据;对所述新增样本数据进行聚类,获得至少一个新增样本簇,对所述历史样本数据进行聚类,获得至少一个历史样本簇;对所述历史样本簇和各所述新增样本簇进行簇相似性分析,获得所述历史样本簇的至少一个相似度;其中,所述相似度包括完全相似、完全不相似或者部分相似;基于所述相似度,去除至少一个所述历史样本簇中的冗余样本簇,获得有效历史样本簇;基于所述有效历史样本簇和所述新增样本簇,生成所述当前训练任务的训练样本集。2.根据权利要求1所述的训练样本集生成方法,其特征在于,所述基于所述相似度,去除至少一个所述历史样本簇中的冗余样本簇,获得有效历史样本簇,包括:针对任一所述目标历史样本簇,确定所述目标历史样本簇相对于各所述新增样本簇的重复样本占比;其中,所述目标历史样本簇为至少一个相似度为部分相似的历史样本簇;根据至少一个所述重复样本占比,确定所述目标历史样本簇相对于所有所述新增样本簇的相似均匀度;若所述相似均匀度为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似,则将所述目标历史样本簇确定为第一冗余样本簇,删除所述第一冗余样本簇。3.根据权利要求2所述的训练样本集生成方法,其特征在于,所述根据至少一个所述重复样本占比,确定所述目标历史样本簇相对于所有所述新增样本簇的相似均匀度,包括:根据所述重复样本占比的数值大小,对至少一个所述重复样本占比进行排序,获得重复样本占比序列;基于所述重复样本占比序列,生成重复样本占比曲线;若所述重复样本占比曲线为凹函数曲线且所述至少一个所述重复样本占比中的最大值大于预设值,则将所述目标历史样本簇的所述相似均匀度确定为所述目标历史样本簇仅和其中一个所述新增样本簇高度相似。4.根据权利要求2所述的训练样本集生成方法,其特征在于,所述针对任一所述目标历史样本簇,确定所述目标历史样本簇相对于各所述新增样本簇的重复样本占比,包括:针对任一所述目标历史样本簇,确定所述目标历史样本簇相对于任一所述新增样本簇的重复样本数量;确定所述重复样本数量相对于所述目标历史样本簇的第一重复样本占比,并确定所述重复样本数量相对于所述任一所述新增样本簇的第二重复样本占比;将所述第一重复样本占比和所述第二重复样本占比中数值较大的一者,确定为所述目标历史样本簇相对于所述任一所述新增样本簇的重复样本占比。5.根据权利要求1或2所述的训练样本集生成方法,其特征在于,所述基于所述相似度,去除至少一个所述历史样本簇中的冗余样本簇,获得有效历史样本簇,包括:去除第二冗余样本簇;其中,所述第二冗余样本簇为至少一个所述相似度为完全相似的历史样本簇;和/或将所有所述相似度均为完全不相似的历史样本簇,确定为有效历史样本簇。
6.根据权利要求1所述的训练样本集生成方法,其特征在于,所述基于所述有效历史样本簇和所述新增样本簇,生成所述当前训练任务的训练样本集,包括:将所述有效历史样本簇和所述新增样本簇均作为训练样本簇;基于所述训练样本簇的样本特征信息,获得各所述训练样本簇的重要度信息;基于所述重要度信息,确定各所述训练样本簇的挑选样本数量;其中,所述挑选样本数量和所述重要度信息呈正相关;基于所述挑选样本数量,从对应的所述训练样本簇中筛选出目标样本数据,生成所述当前训练任务的训练样本集。7.根据权利要求6所述的训练样本集生成方法,其特征在于,所述基于所述训练样本簇的样本特征信息,获得各所述训练样本簇的重要度信息,包括:确定所述训练样本簇的样本总数、簇方差以及错误报警样本数量;其中,错误报警样本由上一训练任务得到的神经网络模型对测试样本集进行测试得到;基于所述样本总数、所述簇方差以及所述错误报警样本数量,获得所述训练样本簇的重要度信息;其中,所述样本总数、所述簇方差以及所述错误报警样本数量均与所述重要度信息呈正相关。8.一种训练样本...
【专利技术属性】
技术研发人员:蒋煜华,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。