一种面向分布式机器学习的云计算资源调度方法技术

技术编号：19240235 阅读：27 留言：0更新日期：2018-10-24 03:51

本发明专利技术涉及一种面向分布式机器学习的云计算资源调度方法。通过历史数据建立迭代次数与模型质量提升间的模型，在线预测资源分配对模型质量提升的影响，制定资源分配策略，以达到在云计算平台运行的多个并发执行的模型训练任务的整体性能最大化的效果，从而提高资源利用率，快速适应任务和负载的动态变化。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向分布式机器学习的云计算资源调度方法
本专利技术涉及一种云计算资源调度方法，尤其涉及一种面向分布式机器学习的云计算资源调度方法，属于软件

技术介绍
机器学习是当前越来越重要的大规模数据分析技术，广泛应用于在线搜索、市场营销、医疗保健和信息安全等领域。机器学习包括训练和推理等两个阶段，训练阶段从训练数据集构建机器学习模型，推理阶段使用该模型对新输入进行预测。机器学习模型是输入到输出映射的近似函数，模型训练通常需要基于大规模数据集，经过多次迭代计算，直到收敛。模型训练是探索性过程，通过反复训练调整超参数和模型结构，生成最终模型。该过程在开始时生成一个低质量的模型，并通过迭代训练改进模型的质量，随着数据量的增长，更多迭代的完成，训练与优化的成本会不断增加。由于机器学习的训练需要较高的时间和资源开销，机器学习工程师更倾向于在短时间内使用较好的模型来进行初步验证和测试。随着大数据时代的到来，机器学习复杂度和数据量增长速度远远超过硬件发展速度，小规模集群已无法满足机器学习的物理资源需求。云计算平台可以用来为多租户提供共享物理资源，以高效执行多个分布式机器学习模型的训练，云计算资源调度成为提高机器学习执行效率与云计算资源利用率的关键技术。云计算资源调度方法主要分为以下几类：在大规模机器学习框架方面，MLlib(X.Meng,J.K.Bradley,etal.MLlib:MachineLearninginApacheSpark.CoRR,2015.),TensorFlow(M.Abadi,P.Barham,etal.TensorFlow:ASystemfo...

【技术保护点】
1.一种面向分布式机器学习的云计算资源调度方法方法，其特征在于实现步骤如下：第一步，预测机器学习在将来的T时间内执行迭代次数为：f(r)=ar，其中，r是分配给任务的资源数量，a=T/(c×S)，S是每次迭代处理的数据量，c根据历史监测数据求解得到的常量，T是资源调整的周期；第二步，计算收益损失：Loss(r) =，其中，f(r)为迭代次数，, b, c为常数，可以通过历史迭代次数以及损失函数值计算得到；第三步，预测资源分配后得到的收益损失值变化为：，其中，aj为任务j分配的资源数量；第四步，将单位资源r分配给收益损失值变化最大的任务j，更新aj= aj + r，其中，aj为任务j分配的资源数量；第五步，在满足条件：，表示任务j分配资源aj总和不大于资源池中可分配资源的总量C下，重复第四步，从而达到，即在云计算平台并发执行的J个任务在将来T时间内的收益损失减少量最大化；第六步，根据以上计算结果，为每个任务分配资源。

【技术特征摘要】
1.一种面向分布式机器学习的云计算资源调度方法方法，其特征在于实现步骤如下：第一步，预测机器学习在将来的T时间内执行迭代次数为：f(r)=ar，其中，r是分配给任务的资源数量，a=T/(c×S)，S是每次迭代处理的数据量，c根据历史监测数据求解得到的常量，T是资源调整的周期；第二步，计算收益损失：Loss(r)=，其中，f(r)为迭代次数，,b,c为常数，可以通过历史迭代次数以及损失函数值计算得到；第三...

【专利技术属性】
技术研发人员：周红卫，刘延新，李亚琼，李守超，吴昊，
申请(专利权)人：江苏润和软件股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人