一种机器学习系统的训练方法和训练系统技术方案

技术编号:16152859 阅读:58 留言:0更新日期:2017-09-06 18:16
本申请公开一种机器学习系统的训练方法和训练系统,利用多个样本数据对机器学习系统进行训练,该方法包括:获得多个样本集合,每个样本集合包括对应取样时间段内的样本数据;根据每一个样本集合对应的采样时间段,设置该样本集合对应的采样率;获得多个根据采样率采样后的样本集合;分别确定所述多个采样后的样本集合的重要程度值;利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据,获得修正后的样本数据;将每一个所述修正后的样本数据输入机器学习系统,对该机器学习系统进行训练。本申请实施例在将样本数据输入机器学习系统之前对样本数据进行处理,在减轻机器的内存资源需求的同时尽量降低对机器学习系统的学习效果的影响。

【技术实现步骤摘要】
一种机器学习系统的训练方法和训练系统
本申请涉及大数据处理领域,尤其涉及一种机器学习系统的训练方法和训练系统。
技术介绍
在如今的大数据时代,互联网公司获取超大规模数据已非常容易。据不完全统计,谷歌2012年每天30亿query/300亿广告,脸书用户2013年每天分享43亿内容,阿里巴巴2015双十一当天就有超过7亿笔交易。这些公司通过机器学习系统,去挖掘数据里面的金矿,包括用户兴趣/行为/习惯等等。机器学习系统设计为模仿人脑的神经网络,用于预测用户的行为。在机器学习系统上线之前,需要通过大规模的数据进行训练。然而在训练过程中,大规模的数据必然要求大规模的机器资源才能有效处理,例如腾讯的广告数据,都是PB级别,必然要用到千台机器以上,这对大部分公司来说,都是个巨大的成本。为了降低成本,提高机器学习系统的效率,通常的处理方式是通过随机样本采样的手段减少机器学习系统处理的数据量。随机样本采样就是以一定概率丢弃样本,例如对每一个样本随机生成1个0-1范围内的浮点数,当浮点数大于阈值时则直接丢弃该样本。然而,随机丢弃样本的方式会丢弃大量的有用数据,损害机器学习系统的训练效果,降低预测的精度本文档来自技高网...
一种机器学习系统的训练方法和训练系统

【技术保护点】
一种机器学习系统的训练方法,利用多个样本数据对机器学习系统进行训练,其特征在于,所述训练方法包括:获得多个样本集合,每个样本集合包括对应取样时间段内的样本数据;根据每一个样本集合对应的采样时间段,设置该样本集合对应的采样率;获得多个根据采样率采样后的样本集合;分别确定所述多个采样后的样本集合的重要程度值;利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据,获得修正后的样本数据;将每一个所述修正后的样本数据输入机器学习系统,对该机器学习系统进行训练。

【技术特征摘要】
1.一种机器学习系统的训练方法,利用多个样本数据对机器学习系统进行训练,其特征在于,所述训练方法包括:获得多个样本集合,每个样本集合包括对应取样时间段内的样本数据;根据每一个样本集合对应的采样时间段,设置该样本集合对应的采样率;获得多个根据采样率采样后的样本集合;分别确定所述多个采样后的样本集合的重要程度值;利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据,获得修正后的样本数据;将每一个所述修正后的样本数据输入机器学习系统,对该机器学习系统进行训练。2.如权利要求1所述的机器学习系统的训练方法,其特征在于,所述利用该重要程度值修正所述多个采样后的样本集合中的每一个样本数据,获得修正后的样本数据的步骤包括:将每一个所述重要程度值与对应的采样后的样本集合中的每一个样本数据相乘,获得修正后的样本数据。3.如权利要求1所述的机器学习系统的训练方法,其特征在于,所述将每一个所述修正后的样本数据输入机器学习系统,对该机器学习系统进行训练的步骤包括:计算出每一个所述修正后的样本数据的梯度;降低每一个所述梯度的精度;将降低精度后的梯度输入所述机器学习系统,对该机器模型进行训练。4.如权利要求3所述的机器学习系统的训练方法,其特征在于,所述降低每一个所述梯度的精度的步骤包括:利用下述公式,减少每一个梯度的存储字节,以实现降低精度:X1=floor(c*X+(rand())/d)/c其中floor为向下取整;rand()为产生0-d之间的浮点数;X1为减少后的存储字节数;X为减少前的存储字节数。5.如权利要求1所述的机器学习系统的训练方法,其特征在于,所述分别确定所述多个采样后的样本集合的重要程度值步骤包括:基于对应的采样率对所述采样后的样本集合的初始重要程度值进行修正,得到所述采样后的样本集合的重要程度值;所述重要程度值和初始重要程度值为正比关系,和所述采样后的样本集合的采样率为反比关系。6.如权利要求5所述的机器学习系统的训练方法,其特征在于,所述分别设置所述多个采样后的样本集合的重要程度值步骤还包括:按照预置规则,提高最新的取样时间段对应的样本集合的重要程度值。7.如权利要求6所述的机器学习系统的训练方法,其特征在于,所述预置规则包括:提高后的最新的取样时间段对应的样本集合的重要程度值与提高前的最新的取样时间段对应的样本集合的重要程度值成正比,并与样本集合的总个数成正比。8.如权利要求1所述的机器学习系统的训练方法,其特征在于,在根据每一个样本集合对应的采样时间段,设置该样本集合对应的采样率的步骤中,所述样本集合的采样率随着该样本集合对应的取样时...

【专利技术属性】
技术研发人员:周俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1