一种基于约束近端策略优化的时变任务调度方法及系统技术方案

技术编号:40923125 阅读:16 留言:0更新日期:2024-04-18 14:47
本发明专利技术公开了一种基于约束近端策略优化的时变任务调度方法及系统,属于信息处理技术领域,包括:状态表示:捕捉资源调度问题的关键信息,所述关键信息包括每个任务在不同时间点的CPU和内存需求以及服务器的CPU和内存的容量;动作空间定义:定义资源分配的可选动作,所述资源分配的可选动作包括分配给不同任务的CPU和内存资源量、任务的优先级;制定奖励函数,所述奖励函数用于评估每个资源分配动作的质量,奖励函数根据资源分配的效率、系统性能和资源利用率的改进来计算奖励;强化学习:采用Proximal Policy Optimization算法,通过与环境交互,不断更新策略网络的参数,以逐步优化资源分配策略。

【技术实现步骤摘要】

本专利技术属于信息处理,具体涉及一种基于约束近端策略优化的时变任务调度方法及系统


技术介绍

1、在现代社会中,计算资源的高效分配和管理对于各种应用和领域至关重要,包括云计算、物联网、自动化生产、机器人技术、分布式系统等。计算资源的合理利用不仅可以提高系统性能,还可以减少能源消耗和成本。然而,传统的资源调度方法通常基于静态规则或经验法则,无法适应不断变化的工作负载和环境条件,导致资源浪费和性能下降。

2、资源调度的问题在各个领域都有不同的表现。在云计算中,虚拟机或容器的动态创建和销毁以满足不同用户的需求是一项复杂的任务。在物联网中,设备需要根据实时数据和通信需求获得合适的资源。在自动化生产中,机器和机器人需要协同工作,并根据任务需求合理分配资源。这些场景都需要一种智能的资源调度方法,能够根据实时情况做出决策。基于强化学习的资源调度算法因其能够通过学习和优化来改善资源分配的能力而备受瞩目。

3、强化学习是一种机器学习方法,它模仿人类学习的方式,通过试错来改进决策策略。在资源调度中,强化学习可以将资源的分配视为一种决策过程,其中系统通过本文档来自技高网...

【技术保护点】

1.一种基于约束近端策略优化的时变任务调度方法,其特征在于,包括:

2.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述状态表示包括:

3.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述动作空间定义包括:当前智能体可以选择的物理服务器,取值范围在[1,…,N]。

4.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述制定奖励函数包括:

5.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述强化学习算法包括:>

6.一种基于...

【技术特征摘要】

1.一种基于约束近端策略优化的时变任务调度方法,其特征在于,包括:

2.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述状态表示包括:

3.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述动作空间定义包括:当前智能体可以选择的物理服务器,取值范围在[1,…,n]。

4.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述制定奖励函数包括:

5.根据权利要求1所述的基于约束近端策略优化的时变任务调度方法,其特征在于,所述强化学习算法包括:

6.一种基于约束近端策略优化的时...

【专利技术属性】
技术研发人员:刘才华常恰明徐涛
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1