一种机器学习算法的自适应调整方法和系统技术方案

技术编号:19024070 阅读:86 留言:0更新日期:2018-09-26 19:13
本发明专利技术涉及一种机器学习算法的自适应调整方法和系统,包括:通过对机器学习算法进行分析,获取控制其计算时间的可控参数,并根据该可控参数在各具体数值下该机器学习算法的实际计算时间,建立该机器学习算法计算时间的量化模型库;根据各时间窗内输入数据的复杂度,对该机器学习算法结构进行粗粒度调整,给定算法模型的复杂度范围,并根据该机器学习算法对该输入数据进行量化描述,结合给定的时间限制在该量化模型库中确定该可控参数的具体数值,并将该具体数值应用至该机器学习算法,以实现该机器学习算法的自适应调整。本发明专利技术使得机器学习算法能够在有限的计算资源条件下适应流式数据的在线应用场景,在给定的时间限制下给出合理的计算结果。

【技术实现步骤摘要】
一种机器学习算法的自适应调整方法和系统
本专利技术涉及机器学习算法分析和算法自适应调整领域,涉及一种基于信息熵的机器学习算法的自适应调整方法和系统。
技术介绍
机器学习算法在数据分析、数据挖掘等方面的应用已经十分广泛,并取得了很好的效果。同时,机器学习算法也是一种针对特定的应用或特定数据的特异性很强的算法,即一旦利用给定的训练数据完成训练并唯一确定,模型将很难具有针对不同数据或不同应用的泛化能力。因此,为使得模型具有针对不同数据或应用的自适应能力,例如通过调节模型中某些可控参数来自动调节其模型结构,是一种十分有效的扩展模型泛化能力的解决方法。随着大数据流式场景的不断增长,在线流式应用的实时响应往往是不可违背的需求。但是,离线应用中的机器学习算法为了追求更好的模型效果,往往会通过不断增加模型的复杂度来提升结果的准确性;而不断增加的模型复杂度,必然会导致机器学习算法计算量的上升;也使得模型对给定数据的分析过程和计算过程的耗时大大增加。算法执行的这一特性与流式数据在线应用的实时性需求发生冲突。另一方面,为了给出唯一确定的计算结果,一旦针对流式数据实时更新的模型无法在给定的时间约束下给出合理的结果,历史模型将会被自动选定,并作用于新的时间窗内的数据。然而实验表明,当历史模型作用于当前时刻的数据时,模型计算结果的准确度往往大幅降低;而选取复杂度适当降低的简单模型,却能够在满足当前时间限制下给出更为合理的计算结果。虽然,简单模型的计算结果的准确度相较于无时间约束的复杂模型有所下降,但是可以保证这一计算结果是在当前给定的时间限制下的最优,即该次优结果远远比在给定的时间约束下无法收敛的复杂模型或者由历史数据训练所得历史模型的结果更为准确。在流式数据在线应用的场景中,传统的机器学习算法为追求模型算法的准确度,而不断提升这些模型结构的复杂性,从而引入了额计算时间开销——这对在线的实时需求带来极大的冲击。而在实际的实验和应用中,专利技术人发现适当降低机器学习算法模型的复杂度,可以降低模型的训练和计算时间,从而可以保证模型的计算时间能够满足在线应用的实时性服务需求。为使得机器学习算法能够满足在线流式应用的实时性需求,在所能接受的时间范围内给出的数据处理和分析结果,如何准确的衡量机器学习算法的模型计算时间和模型复杂程度之间的关系,以及如何依据不同特征的应用场景需求自适应的调节模型的计算时间,是急需解决的技术问题。
技术实现思路
针对机器学习算法的训练耗时与流式应用的实时性需求之间存在的矛盾,本专利技术的目的在于提供一种能够满足在线流式应用实时性约束的机器学习算法的自适应调整方法,即机器学习算法能够根据时间约束自适应的调整其模型结构,在当前给定时间限定下能够得到最优计算结果的解决方案。具体地说,本专利技术公开了一种机器学习算法的自适应调整方法,其中包括:步骤1、通过对机器学习算法进行分析,获取控制其计算时间的可控参数,并根据该可控参数在各具体数值下该机器学习算法的实际计算时间,建立该机器学习算法计算时间的量化模型库;步骤2、根据各时间窗内输入数据的复杂度,对该机器学习算法结构进行粗粒度调整,给定算法模型的复杂度范围,并根据该机器学习算法对该输入数据进行量化描述,结合给定的时间限制在该量化模型库中确定该可控参数的具体数值,并将该具体数值应用至该机器学习算法,以实现该机器学习算法的自适应调整。该机器学习算法的自适应调整方法,其中该步骤1包括:步骤101、根据该机器学习算法的执行过程,判断能否量化该机器学习算法的计算时间;步骤102、通过统计该机器学习算法在各参数下的计算时间和结果准确性,获得该可控参数,并建立计算时间和该结果准确度之间的权衡空间。该机器学习算法的自适应调整方法,其中该步骤2包括:步骤201、通过计算时间窗内该输入数据的信息熵,得到当前时间窗内的数据复杂度;步骤202、计算当前时间窗内输入数据的量化描述,根据该时间限制确定该可控参数的取值集合,并由该量化描述在该取值集合中确定该可控参数的具体数值。该机器学习算法的自适应调整方法,其中该机器学习算法为神经网络模型或决策树模型或随机森林模型或深度学习算法模型或自回归滑动平均模型。该机器学习算法的自适应调整方法适用于那些不同的初始化设定参数对算法的计算时间有显著影响的机器学习算法。包括神经网络模型或决策树模型或随机森林模型或深度学习算法模型或自回归滑动平均模型,但不仅局限于上述算法。该机器学习算法的自适应调整方法,其中当该机器学习算法为该自回归滑动平均模型时,该可控参数包括:自回归模型阶数和滑动平均模型阶数,该量化描述为该输入数据的偏自相关函数和自相关函数。本专利技术还提出了一种机器学习算法的自适应调整系统,其中包括:量化模型库建立模块,用于通过对机器学习算法进行分析,获取控制其计算时间的可控参数,并根据该可控参数在各具体数值下该机器学习算法的实际计算时间,建立该机器学习算法计算时间的量化模型库;自适应调整模块,用于根据各时间窗内输入数据的复杂度,对该机器学习算法结构进行粗粒度调整,给定算法模型的复杂度范围,并根据该机器学习算法对该输入数据进行量化描述,结合给定的时间限制在该量化模型库中确定该可控参数的具体数值,并将该具体数值应用至该机器学习算法,实现该机器学习算法的自适应调整。该机器学习算法的自适应调整系统,其中该量化模型库建立模块包括:判断模块,用于根据该机器学习算法的执行过程,判断能否量化该机器学习算法的计算时间;权衡空间建立模块,用于通过统计该机器学习算法在各参数下的计算时间和结果准确性,获得该可控参数,并建立计算时间和该结果准确度之间的权衡空间。该机器学习算法的自适应调整系统,其中该自适应调整模块包括:复杂度计算模块,用于通过计算时间窗内该输入数据的信息熵,得到该复杂度;选取模块,用于计算当前时间窗内输入数据的量化描述,根据该时间限制确定该可控参数的取值集合,并由该量化描述在该取值集合中选取该可控参数的具体数值。该机器学习算法的自适应调整系统,其中该机器学习算法为神经网络模型或决策树模型或随机森林模型或深度学习算法模型或自回归滑动平均模型。该机器学习算法的自适应调整系统,其中当该机器学习算法为该自回归滑动平均模型时,该可控参数包括:自回归模型阶数和滑动平均模型阶数,该量化描述为该输入数据的偏自相关函数和自相关函数。本专利技术通过对机器学习算法的计算时间的量化,调节模型中的可控参数,以改变模型的结构或者某些具体的算法,从而能够避免由于引入过度复杂的模型而带来的高额的计算时间开销。本专利技术的优点在于,提供了一种机器学习算法根据时间限制能够自适应调整模型结构的方法,使得机器学习算法能够在有限的计算资源条件下适应流式数据的在线应用场景,在给定的时间限制下给出合理的计算结果。附图说明图1为本专利技术自适应调整方法的整体结构图;图2为本专利技术的方法的步骤流程图;图3为不同模型参数的计算时间图;图4为不同模型参数和计算时间之间的量化关系图;图5为模型计算时间和模型效果之间的权衡空间图;图6为数据复杂程度和模型复杂程度之间的关系图;图7a为自适应模型的实际执行时间与复杂模型和简单模型的对比图;图7b为自适应模型的实际执行效果与复杂模型和简单模型的对比图。具体实施方式为了实现机器学习算法的自适应调整,本发本文档来自技高网
...

【技术保护点】
1.一种机器学习算法的自适应调整方法,其特征在于,包括:步骤1、通过对机器学习算法进行分析,获取控制其计算时间的可控参数,并根据该可控参数在各具体数值下该机器学习算法的实际计算时间,建立该机器学习算法计算时间的量化模型库;步骤2、根据各时间窗内输入数据的复杂度,对该机器学习算法的结构进行粗粒度调整,给定算法模型的复杂度范围,并根据该机器学习算法对该输入数据进行量化描述,结合给定的时间限制在该量化模型库中确定该可控参数的具体数值,并将该具体数值应用至该机器学习算法,以实现该机器学习算法的自适应调整。

【技术特征摘要】
1.一种机器学习算法的自适应调整方法,其特征在于,包括:步骤1、通过对机器学习算法进行分析,获取控制其计算时间的可控参数,并根据该可控参数在各具体数值下该机器学习算法的实际计算时间,建立该机器学习算法计算时间的量化模型库;步骤2、根据各时间窗内输入数据的复杂度,对该机器学习算法的结构进行粗粒度调整,给定算法模型的复杂度范围,并根据该机器学习算法对该输入数据进行量化描述,结合给定的时间限制在该量化模型库中确定该可控参数的具体数值,并将该具体数值应用至该机器学习算法,以实现该机器学习算法的自适应调整。2.如权利要求1所述的机器学习算法的自适应调整方法,其特征在于,该步骤1包括:步骤101、根据该机器学习算法的执行过程,判断能否量化该机器学习算法的计算时间;步骤102、通过统计该机器学习算法在各参数下的计算时间和结果准确性,获得该可控参数,并建立计算时间和该结果准确度之间的权衡空间。3.如权利要求1或2所述的机器学习算法的自适应调整方法,其特征在于,该步骤2包括:步骤201、通过计算时间窗内该输入数据的信息熵,得到当前时间窗内数据的复杂度;步骤202、计算当前时间窗内输入数据的量化描述,根据该时间限制确定该可控参数的取值集合,并由该量化描述在该取值集合中确定该可控参数的具体数值。4.如权利要求3所述的机器学习算法的自适应调整方法,其特征在于,该机器学习算法包括:神经网络模型,或决策树模型,或随机森林模型,或自回归滑动平均模型。5.如权利要求4所述的机器学习算法的自适应调整方法,其特征在于,当该机器学习算法为该自回归滑动平均模型时,该可控参数包括自回归模型阶数和滑动平均模型阶数,该量化描述包括该输入数据的偏自相关函数和自相关函数;当该机器学习算法为该神经网络模型时,该可控参数包括神经网络算法的激活函数、网络层数和神经网络中各层的神经元节点数目,该量化描述包括该输入数据的复杂度;当该机器学习算法为该随机森林模型时,该可控参数包括随机森林算法中树的个数和每个树的深度,该量化描述包括该输入数据的复杂度;当该机器学习算法为该决策树模型时,该可控参数包括树的深度,该量化描述包括该输入数据的复杂度。6.一种机器学习算法的自适应调整系统,其特征在于,包括:...

【专利技术属性】
技术研发人员:吴婧雅鄢贵海李晓维
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1