一种机器学习算法的自适应调整方法和系统技术方案

技术编号：19024070 阅读：86 留言：0更新日期：2018-09-26 19:13

本发明专利技术涉及一种机器学习算法的自适应调整方法和系统，包括：通过对机器学习算法进行分析，获取控制其计算时间的可控参数，并根据该可控参数在各具体数值下该机器学习算法的实际计算时间，建立该机器学习算法计算时间的量化模型库；根据各时间窗内输入数据的复杂度，对该机器学习算法结构进行粗粒度调整，给定算法模型的复杂度范围，并根据该机器学习算法对该输入数据进行量化描述，结合给定的时间限制在该量化模型库中确定该可控参数的具体数值，并将该具体数值应用至该机器学习算法，以实现该机器学习算法的自适应调整。本发明专利技术使得机器学习算法能够在有限的计算资源条件下适应流式数据的在线应用场景，在给定的时间限制下给出合理的计算结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种机器学习算法的自适应调整方法和系统
本专利技术涉及机器学习算法分析和算法自适应调整领域，涉及一种基于信息熵的机器学习算法的自适应调整方法和系统。
技术介绍
机器学习算法在数据分析、数据挖掘等方面的应用已经十分广泛，并取得了很好的效果。同时，机器学习算法也是一种针对特定的应用或特定数据的特异性很强的算法，即一旦利用给定的训练数据完成训练并唯一确定，模型将很难具有针对不同数据或不同应用的泛化能力。因此，为使得模型具有针对不同数据或应用的自适应能力，例如通过调节模型中某些可控参数来自动调节其模型结构，是一种十分有效的扩展模型泛化能力的解决方法。随着大数据流式场景的不断增长，在线流式应用的实时响应往往是不可违背的需求。但是，离线应用中的机器学习算法为了追求更好的模型效果，往往会通过不断增加模型的复杂度来提升结果的准确性；而不断增加的模型复杂度，必然会导致机器学习算法计算量的上升；也使得模型对给定数据的分析过程和计算过程的耗时大大增加。算法执行的这一特性与流式数据在线应用的实时性需求发生冲突。另一方面，为了给出唯一确定的计算结果，一旦针对流式数据实时更新的模型无法在给定的时间约束下给出合理的结果，历史模型将会被自动选定，并作用于新的时间窗内的数据。然而实验表明，当历史模型作用于当前时刻的数据时，模型计算结果的准确度往往大幅降低；而选取复杂度适当降低的简单模型，却能够在满足当前时间限制下给出更为合理的计算结果。虽然，简单模型的计算结果的准确度相较于无时间约束的复杂模型有所下降，但是可以保证这一计算结果是在当前给定的时间限制下的最优，即该次优结果远远比在给定的时间约...

【技术保护点】
1.一种机器学习算法的自适应调整方法，其特征在于，包括：步骤1、通过对机器学习算法进行分析，获取控制其计算时间的可控参数，并根据该可控参数在各具体数值下该机器学习算法的实际计算时间，建立该机器学习算法计算时间的量化模型库；步骤2、根据各时间窗内输入数据的复杂度，对该机器学习算法的结构进行粗粒度调整，给定算法模型的复杂度范围，并根据该机器学习算法对该输入数据进行量化描述，结合给定的时间限制在该量化模型库中确定该可控参数的具体数值，并将该具体数值应用至该机器学习算法，以实现该机器学习算法的自适应调整。

【技术特征摘要】
1.一种机器学习算法的自适应调整方法，其特征在于，包括：步骤1、通过对机器学习算法进行分析，获取控制其计算时间的可控参数，并根据该可控参数在各具体数值下该机器学习算法的实际计算时间，建立该机器学习算法计算时间的量化模型库；步骤2、根据各时间窗内输入数据的复杂度，对该机器学习算法的结构进行粗粒度调整，给定算法模型的复杂度范围，并根据该机器学习算法对该输入数据进行量化描述，结合给定的时间限制在该量化模型库中确定该可控参数的具体数值，并将该具体数值应用至该机器学习算法，以实现该机器学习算法的自适应调整。2.如权利要求1所述的机器学习算法的自适应调整方法，其特征在于，该步骤1包括：步骤101、根据该机器学习算法的执行过程，判断能否量化该机器学习算法的计算时间；步骤102、通过统计该机器学习算法在各参数下的计算时间和结果准确性，获得该可控参数，并建立计算时间和该结果准确度之间的权衡空间。3.如权利要求1或2所述的机器学习算法的自适应调整方法，其特征在于，该步骤2包括：步骤201、通过计算时间窗内该输入数据的信息熵，得到当前时间窗内数据的复杂度；步骤202、计算当前时间窗内输入数据的量化描述，根据该时间限制确定该可控参数的取值集合，并由该量化描述在该取值集合中确定该可控参数的具体数值。4.如权利要求3所述的机器学习算法的自适应调整方法，其特征在于，该机器学习算法包括：神经网络模型，或决策树模型，或随机森林模型，或自回归滑动平均模型。5.如权利要求4所述的机器学习算法的自适应调整方法，其特征在于，当该机器学习算法为该自回归滑动平均模型时，该可控参数包括自回归模型阶数和滑动平均模型阶数，该量化描述包括该输入数据的偏自相关函数和自相关函数；当该机器学习算法为该神经网络模型时，该可控参数包括神经网络算法的激活函数、网络层数和神经网络中各层的神经元节点数目，该量化描述包括该输入数据的复杂度；当该机器学习算法为该随机森林模型时，该可控参数包括随机森林算法中树的个数和每个树的深度，该量化描述包括该输入数据的复杂度；当该机器学习算法为该决策树模型时，该可控参数包括树的深度，该量化描述包括该输入数据的复杂度。6.一种机器学习算法的自适应调整系统，其特征在于，包括：...

【专利技术属性】
技术研发人员：吴婧雅，鄢贵海，李晓维，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人