System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统技术方案_技高网

一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统技术方案

技术编号:42655863 阅读:29 留言:0更新日期:2024-09-10 12:15
本发明专利技术属于车间调度相关技术领域,其公开了一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统,方法包括:采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得目标规则库;基于运输任务数量以及各运输载具的位置获得环境状态空间;将环境状态空间输入Transformer获得目标环境状态空间,采用两个评论家网络对目标规则库中的调度策略对应的动作在目标环境状态空间下的Q值进行评估,选择较低的Q值进行动作执行,采用奖励函数对动作执行所产生的环境状态变化进行奖励,更新评论家网络获得最优调度策略。本申请使得当前决策与当前环境状态更加相关,提升了对新环境的适应能力。

【技术实现步骤摘要】

本专利技术属于车间调度相关,更具体地,涉及一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统


技术介绍

1、在工业4.0和智能制造的背景下,车间自动化和智能调度正面临日益复杂的挑战。传统的agv调度方法在灵活性、响应速度和效率方法已不能满足现代生产的需求。现实生产中,agv需要再动态变化的车间环境中快速、准确地完成任务,这要求调度系统能够实时响应并作出最优决策。然而,现有技术在处理复杂环境和突发情况时存在局限性,例如处理速度慢、调度策略单一等问题。

2、在实践中,为了解决上述需求,工厂一般会选择使用传统的调度规则进行物流调度。现有的许多调度规则通常是基于实际生产的经验,快速获得一个满意的解决方案。但是调度规则仍有很大的优化空间。如何在保证求解速度的情况下尽可能地优化解决方案的质量,是应对目前传统物流调度实时性要求不断提高亟需解决的问题。因此,开发一种新型的agv调度方法,能够更好地适应快速变化的生产环境,对于提高生产效率和车间自动化水平具有重要意义。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统,使得当前决策与当前环境状态更加相关,提升了对新环境的适应能力。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法,包括:s1:采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得高质量调度规则集合,组成目标规则库;并基于运输任务数量以及各运输载具的位置获得环境状态空间;s2:将所述环境状态空间输入transformer进行环境观测状态拼接,获得目标环境状态空间,采用两个评论家网络对目标规则库中的调度策略对应的动作在所述目标环境状态空间下的q值进行评估,选择较低的q值进行动作执行,采用奖励函数对动作执行所产生的环境状态变化进行奖励,采用所述奖励更新所述评论家网络获得最优调度策略。

3、优选地,步骤s1中,所述基本调度规则库中的调度规则包括先到先服务、最短行程距离、最早截止日期优先、最长等待时间优先以及最近车辆优先。

4、优选地,步骤s1具体包括:s11:设置包括多种数学函数的函数集以及表达式树,所述表达式树为线性结构,表达式树包括头部和尾部,其中头部包括函数集中的函数以及基本调度规则库中的规则,尾部包括基本调度规则库中的规则;s12:采用遗传算法基于所述表达式树执行交叉、变异和移位操作获得目标规则库。

5、优选地,所述数学函数至少包括:加、减、乘、除、最大值、最小值、平方根函数以及正弦函数。

6、优选地,步骤s1中所述环境状态空间包括:当前所有待执行运输任务的数量、待执行运输任务的平均剩余时间、待执行运输任务的最短剩余时间、所有候选运输载具的平均行程距离、所有候选运输载具的最短剩余行程、所有候选载具距离任务地点的平均距离以及所有候选载具距离任务地点的最短距离。

7、优选地,步骤s1还包括对所述环境状态空间进行归一化。

8、优选地,步骤s2中,采用所述奖励更新所述评价家网络获得最优调度策略具体为:根据所述奖励更新评价家网络中的策略网络,采用评价家网络的输出更新演员网络中的策略网络。

9、优选地,步骤s2采用所述奖励更新所述评价家网络之后还包括定期更新评价家网络和演员网络中的目标网络。

10、优选地,策略网络的梯度计算方式为:

11、

12、目标网络的参数更新方式为软更新:

13、w-←τw+(1-τ)w-

14、其中,为所计算的策略梯度,πθ为待更新的智能体策略,es~v表示当前状态的平均价值,πβ为用来收集数据的行为策略,μθ(s)为在策略πθ的指导下在状态s下所选择的动作,为当前状态s下执行动作a评估得到的价值,w-为原有的策略网络参数,τ为软更新方式的更新比例。

15、本申请第二方面提供了一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度系统,包括:目标规则库获取模块:用于采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得高质量调度规则集合,组成目标规则库;环境状态空间获取模块:用于基于运输任务数量以及各运输载具的位置获得环境状态空间;优化模块:用于将所述环境状态空间输入transformer进行环境观测状态拼接,获得目标环境状态空间,采用两个评论家网络对目标规则库中的调度策略对应的动作在所述目标环境状态空间下的q值进行评估,选择较低的q值进行动作执行,采用奖励函数对动作执行所产生的环境状态变化进行奖励,采用所述奖励更新所述评论家网络获得最优调度策略。

16、总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,本专利技术提供的一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法及系统主要具有以下有益效果:

17、1.本申请首先针对传统的调度规则效率低的问题,提供了基于遗传表达式编程的高质量动作集合生成方法,通过基础调度规则,在遗传算法的框架下搜索能够取得优异表现的调度规则,作为智能体的动作空间供决策时选择,大幅提高了决策表现的下限,同时扩展了比有限个数的调度规则更大的解空间搜索范围;其次,针对基于全局的环境观测捕捉到的有效信息少、噪声多的问题,设计了聚焦于当前决策智能体相关信息的目标环境状态空间,为智能体提供更加直接具体地信息参考,增强了环境状态观测与调度规则之间的关系,提升了智能体的推理能力。

18、2.针对环境状态空间维度高,将来智能体可能难以捕捉其中的有效信息的问题,提供了引入transformer解码器架构的解决方法,通过引入多头注意力机制并行计算注意力权重,将带权重的状态输入前馈网络,并将输出作为演员网络的输入,而后通过两个评论家网络进行q值评估,使得智能体关注更加重要的信息,做出更优质的决策。

19、3.本申请提供了引入目标网络的方法,使用固定参数的目标网络进行决策,在固定时间步将策略网络的参数更新到目标网络上,使得决策内容趋于平稳,从而使得策略网络的更新更加平稳。

本文档来自技高网...

【技术保护点】

1.一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法,其特征在于,包括:

2.根据权利要求1所述的装配车间物流任务实时调度方法,其特征在于,步骤S1中,所述基本调度规则库中的调度规则包括先到先服务、最短行程距离、最早截止日期优先、最长等待时间优先以及最近车辆优先。

3.根据权利要求1或2所述的装配车间物流任务实时调度方法,其特征在于,步骤S1采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得高质量调度规则集合,组成目标规则库具体包括:

4.根据权利要求3所述的装配车间物流任务实时调度方法,其特征在于,所述数学函数至少包括:加、减、乘、除、最大值、最小值、平方根函数以及正弦函数。

5.根据权利要求1所述的装配车间物流任务实时调度方法,其特征在于,步骤S1中所述环境状态空间包括:当前所有待执行运输任务的数量、待执行运输任务的平均剩余时间、待执行运输任务的最短剩余时间、所有候选运输载具的平均行程距离、所有候选运输载具的最短剩余行程、所有候选载具距离任务地点的平均距离以及所有候选载具距离任务地点的最短距离。

6.根据权利要求1或5所述的装配车间物流任务实时调度方法,其特征在于,步骤S1还包括对所述环境状态空间进行归一化。

7.根据权利要求1所述的装配车间物流任务实时调度方法,其特征在于,步骤S2中,采用所述奖励更新所述评价家网络获得最优调度策略具体为:

8.根据权利要求7所述的装配车间物流任务实时调度方法,其特征在于,步骤S2采用所述奖励更新所述评价家网络之后还包括定期更新评价家网络中的目标网络和演员网络中的目标网络。

9.根据权利要求8所述的装配车间物流任务实时调度方法,其特征在于,策略网络的梯度计算方式为:

10.一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度系统,其特征在于,包括:

...

【技术特征摘要】

1.一种集成遗传表达式编程和双延迟深度确定性策略梯度算法的装配车间物流任务实时调度方法,其特征在于,包括:

2.根据权利要求1所述的装配车间物流任务实时调度方法,其特征在于,步骤s1中,所述基本调度规则库中的调度规则包括先到先服务、最短行程距离、最早截止日期优先、最长等待时间优先以及最近车辆优先。

3.根据权利要求1或2所述的装配车间物流任务实时调度方法,其特征在于,步骤s1采用遗传表达式编程方式对基本调度规则库中的调度规则进行重组优化获得高质量调度规则集合,组成目标规则库具体包括:

4.根据权利要求3所述的装配车间物流任务实时调度方法,其特征在于,所述数学函数至少包括:加、减、乘、除、最大值、最小值、平方根函数以及正弦函数。

5.根据权利要求1所述的装配车间物流任务实时调度方法,其特征在于,步骤s1中所述环境状态空间包括:当前所有待执行运输任务的数量、待执行运输任务的平均剩余时间、待执行...

【专利技术属性】
技术研发人员:李新宇司京华高亮刘齐浩
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1