A method and system for deleting redundant data in machine learning is presented to obtain the training data corresponding to the machine learning model. The training data are compressed by a set dimension reduction method to obtain coarse-grained compression points. During the training process, multiple fine-grained compression points corresponding to the coarse-grained compression points are obtained based on each coarse-grained compression point; and based on the fine-grained compression points, the coarse-grained compression points are obtained. The influence value of points on the corresponding parameters of machine learning model deletes the candidate trained data corresponding to the fine-grained compression points, and quantitatively evaluates the influence value of input data points on the parameters, thus providing a basis for removing redundant data, reducing the waste of resources and achieving high accuracy.
【技术实现步骤摘要】
一种机器学习冗余数据删除方法及系统
本专利技术涉及大数据领域,具体涉及一种机器学习冗余数据删除方法及系统。
技术介绍
机器学习近来已经在人们生活中无处不在,其成功可归因于它从数据集中提取知识(模型)和支持决策的能力。而迭代优化是当前训练机器学习模型的首要方法,其通过多次迭代最小化输入数据的估计值和实际值直接的损失(误差)。而训练的模型用参数来描述,模型的好坏通过其在测试集上的精度指标(如分类准确率,回归分析误差)来衡量。在大数据时代,很多机器学习应用需要在训练中处理海量的输入数据实例从而获得好的模型精度。然而,这往往导致很长的训练时间,而成为当前大数据机器学习的一个瓶颈。因此,如何有效的处理大量输入数据,依然是当前机器学习系统的一个突出挑战。面向海量数据的机器学习技术主要可以归为精确处理和近似处理两大类:(1)精确处理:数据并行化技术以并行方式处理数据以缩短训练过程,并专注于解决并行化中的问题,如落伍子任务(Stragglingtask)和数据局部性(datalocality)。参数服务器技术旨在降低大规模分布式机器学习中的局部变量传输和同步开销。精确处理需要消耗大量资源而超出用户接受的预算。(2)近似处理:这类技术对输入数据进行压缩和删除,或者采取近似的代码,从而加快训练速度。然而,跳过的输入数据或者近似的代码都可能对最后的模型精确度有影响,在有限资源的情况下往往导致较大的准确度损失。综上,现有技术在训练过程中,同等处理每次迭代选取的输入数据点。然而,在实际训练过程中,不同数据点对模型参数的影响大不相同。显示了3个典型的迭代机器学习算法:如图6(a)所示 ...
【技术保护点】
1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。
【技术特征摘要】
1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。2.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;基于所述降维数据和数据维度划分为多个子集;基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;基于所述平均值进行压缩,转换成对应的粗粒度压缩点。3.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。4.如权利要求3所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。5.如权利要求1或3所述的迭代机器学习冗余数据删除方法,其特征在于,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。6.一种迭代机器学习冗余数据删除系统,其特征在于,所述系统包括:获取模块...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。