一种机器学习冗余数据删除方法及系统技术方案

技术编号:21201156 阅读:47 留言:0更新日期:2019-05-25 01:36
一种机器学习冗余数据删除方法及系统,获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,量化的评价输入数据点对参数的影响值,从而为移除冗余数据提供了依据,减少了资源的浪费,准确度高。

A Method and System for Redundant Data Deletion in Machine Learning

A method and system for deleting redundant data in machine learning is presented to obtain the training data corresponding to the machine learning model. The training data are compressed by a set dimension reduction method to obtain coarse-grained compression points. During the training process, multiple fine-grained compression points corresponding to the coarse-grained compression points are obtained based on each coarse-grained compression point; and based on the fine-grained compression points, the coarse-grained compression points are obtained. The influence value of points on the corresponding parameters of machine learning model deletes the candidate trained data corresponding to the fine-grained compression points, and quantitatively evaluates the influence value of input data points on the parameters, thus providing a basis for removing redundant data, reducing the waste of resources and achieving high accuracy.

【技术实现步骤摘要】
一种机器学习冗余数据删除方法及系统
本专利技术涉及大数据领域,具体涉及一种机器学习冗余数据删除方法及系统。
技术介绍
机器学习近来已经在人们生活中无处不在,其成功可归因于它从数据集中提取知识(模型)和支持决策的能力。而迭代优化是当前训练机器学习模型的首要方法,其通过多次迭代最小化输入数据的估计值和实际值直接的损失(误差)。而训练的模型用参数来描述,模型的好坏通过其在测试集上的精度指标(如分类准确率,回归分析误差)来衡量。在大数据时代,很多机器学习应用需要在训练中处理海量的输入数据实例从而获得好的模型精度。然而,这往往导致很长的训练时间,而成为当前大数据机器学习的一个瓶颈。因此,如何有效的处理大量输入数据,依然是当前机器学习系统的一个突出挑战。面向海量数据的机器学习技术主要可以归为精确处理和近似处理两大类:(1)精确处理:数据并行化技术以并行方式处理数据以缩短训练过程,并专注于解决并行化中的问题,如落伍子任务(Stragglingtask)和数据局部性(datalocality)。参数服务器技术旨在降低大规模分布式机器学习中的局部变量传输和同步开销。精确处理需要消耗大量资源而超出用户接受的预算。(2)近似处理:这类技术对输入数据进行压缩和删除,或者采取近似的代码,从而加快训练速度。然而,跳过的输入数据或者近似的代码都可能对最后的模型精确度有影响,在有限资源的情况下往往导致较大的准确度损失。综上,现有技术在训练过程中,同等处理每次迭代选取的输入数据点。然而,在实际训练过程中,不同数据点对模型参数的影响大不相同。显示了3个典型的迭代机器学习算法:如图6(a)所示,回归分析,如图6(b)所示,SVM分类器和如图6(c)所示,卷积神经网络CNN(ConvolutionalNeuralNetworks)。在每个算法中,仅有少量的有效输入数据点,即处理这些数据对模型参数更新有影响。而大部分的输入数据点属于冗余数据。通过真实数据集对这三个算法的评测显示,迭代训练过程中存在超过75%的输入数据点。因此,现有技术将大量训练时间和计算资源浪费在非关键数据点上,是进一步提升训练性能的瓶颈。
技术实现思路
为了解决现有技术中所存在的问题,本专利技术提供一种机器学习冗余数据删除方法及系统。本专利技术提供的技术方案是:一种机器学习冗余数据删除方法,所述方法包括:获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。优选的,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;基于所述降维数据和数据维度划分为多个子集;基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;基于所述平均值进行压缩,转换成对应的粗粒度压缩点。优选的,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。优选的,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。优选的,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。一种迭代机器学习冗余数据删除系统,所述系统包括:获取模块:用于获取机器学习模型对应的被训练数据;第一压缩模块:用于对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;第二压缩模块:用于在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;删除模块:用于基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。优选的,所述第一压缩模块,包括:降维单元、划分单元、计算单元和压缩单元;述降维单元,用于基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;所述划分单元,用于基于所述降维数据和数据维度划分为多个子集;所述计算单元,用于基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;所述压缩单元,用于基于所述平均值进行压缩,转换成对应的粗粒度压缩点。优选的,所述删除模块,还包括:第一删除模块;第一删除模块,包括:获取单元、比较单元和删除单元;所述获取单元,用于获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;所述比较单元,用于基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;所述删除单元,用于保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。优选的,所述删除单元,包括:比较单元和删除单元;所述判断单元,用于当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;所述删除单元,用于删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。优选的,所述删除单元,包括粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。与现有技术相比,本专利技术的有益效果为:1、本专利技术提供的一种机器学习冗余数据删除方法及系统,获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,量化的评价输入数据点对参数的影响值,从而为移除冗余数据提供了依据,减少了资源的浪费,准确度高。2、本专利技术提供的一种机器学习冗余数据删除方法及本文档来自技高网
...

【技术保护点】
1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。

【技术特征摘要】
1.一种机器学习冗余数据删除方法,其特征在于,所述方法包括:获取机器学习模型对应的被训练数据;对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点;在训练过程中,基于每个粗粒度压缩点获得所述粗粒度压缩点对应的多个细粒度压缩点;基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据。2.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述对所述被训练数据采用设定的降维方式进行压缩处理,得到粗粒度压缩点,包括:基于增量奇异值分解法对所述机器学习模型对应的被训练数据进行降维;基于所述降维数据和数据维度划分为多个子集;基于所述划分的子集对应的所述被训练数据计算每个子集的平均值;基于所述平均值进行压缩,转换成对应的粗粒度压缩点。3.如权利要求1所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,之前还包括:获取所述粗粒度压缩点对机器学习模型相应参数的影响值以及机器学习模型相应参数的有效点上界和有效点下界;基于所述粗粒度压缩点参数的影响值和所述有效点上界进行比较;保存所述粗粒度压缩点参数的影响值大于所述有效点上界的粗粒度压缩点对应的备选的被训练数据,删除所述粗粒度压缩点参数的影响值小于所述有效点下界的粗粒度压缩点对应的备选的被训练数据。4.如权利要求3所述的迭代机器学习冗余数据删除方法,其特征在于,所述基于所述细粒度压缩点对机器学习模型相应参数的影响值删除所述细粒度压缩点对应的备选的被训练数据,包括:当所述粗粒度压缩点参数的影响值小于或等于所述有效点上界,大于所述有效点下界时:基于所述粗粒度压缩点对应的多个细粒度压缩点参数的影响值与所述有效点上界进行比较;删除所述细粒度压缩点参数的影响值小于或等于所述有效点上界的细粒度压缩点对应的备选的被训练数据。5.如权利要求1或3所述的迭代机器学习冗余数据删除方法,其特征在于,所述粗粒度压缩点或细粒度压缩点参数的影响值,计算式如下:式中,e为粗粒度压缩点或细粒度压缩点的影响值;为机器学习被训练数据的特征向量值;y为机器学习被训练数据的特征向量值对应的标签值;g为机器学习被训练数据的梯度;Θ所有机器学习被训练数据集合;θ为机器学习被训练数据集合当前计算的参数。6.一种迭代机器学习冗余数据删除系统,其特征在于,所述系统包括:获取模块...

【专利技术属性】
技术研发人员:韩锐刘驰
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1