【技术实现步骤摘要】
一种机器学习的训练数据选择方法
本专利技术涉及机器学习领域,尤其涉及一种机器学习的训练数据选择方法。
技术介绍
近年来,机器学习,尤其是基于大规模深度神经网络的深度学习技术迅猛发展,已在生活的各个方面得到了应用。随着深度学习的日益流行,机器学习中的数据选择问题成为一个日益受关注的问题。如何自动地选择数据,提高深度学习模型的性能,成为目前的一个迫切的需求。目前在机器学习数据选择的领域,已有了许多方法,例如将训练数据按照“难易程度”由低到高的所谓“课程”(Curriculum)顺序训练,有利于模型的训练过程。此外,自步学习用数据的损失函数大小(lossvalue)作为“难易程度”的度量标准。在自步学习算法中,损失值大于一个特定阈值η的数据会被丢弃,而阈值η在训练过程中逐渐增长,直到最终所有数据都被选中。然而,上述现有的数据选择策略属于人为定义的启发式策略,具有较大的特定性,由于不同的机器学习任务通常具有不同的数据分布和模型特点,这些规则在不同的机器学习任务上往往难以泛化。
技术实现思路
基于现有技术所存在的问题,本专利技术的目的是提供一种机器学习的训练数据选择方法,能在机 ...
【技术保护点】
1.一种机器学习的数据选择方法,其特征在于,包括以下步骤:步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;步骤2,从所述训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略;步骤3,通过确定的所述数据选择策略对所述机器学习模型待输入数据按批次进行选择,将选出的数据用于所述机器学习模型的训练。
【技术特征摘要】
1.一种机器学习的数据选择方法,其特征在于,包括以下步骤:步骤1,选定待选择数据的机器学习模型,并获取该机器学习模型对应的训练数据集;步骤2,从所述训练数据集中随机选出一个数据子集作为策略训练数据集,通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略;步骤3,通过确定的所述数据选择策略对所述机器学习模型待输入数据按批次进行选择,将选出的数据用于所述机器学习模型的训练。2.根据权利要求1所述的机器学习的数据选择方法,其特征在于,所述方法的步骤2中,通过深度强化学习对所述策略训练数据集应用于所述机器学习模型进行若干轮训练,根据训练结果确定与所述机器学习模型匹配的数据选择策略为:步骤21,将策略训练数据集分为两个不相交的策略训练子集和策略验证子集;步骤22,初始化深度强化学习模型的策略函数;步骤23,以所述策略训练子集作为训练数据,通过所述深度强化学习模型重复进行若干轮深度强化学习训练;步骤24,训练完成后得到与所述机器学习模型匹配的深度强化学习模型的策略函数,该策略函数能为所述机器学习模型选择训练数据。3.根据权利要求2所述的机器学习的数据选择方法,其特征在于,所述方法的步骤23中,每轮深度强化学习训练包括:步骤231,初始化所述机器学习模型;步骤232,用所述策略训练子集训练所述机器学习模型,直到所述机器学习模型停止训练;在所述机器学习模型的每步训练过程中,对于每批次数据,根据...
【专利技术属性】
技术研发人员:李向阳,范阳,张兰,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。