System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法技术_技高网

一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法技术

技术编号:40355408 阅读:6 留言:0更新日期:2024-02-09 14:40
本发明专利技术公开了一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,在分布式装配流水车间调度问题的基础上,建立考虑机器阻塞的DABFSP的数学模型并设计调度优化算法;应用基于Q学习的QLHHEA对DABFSP的数学模型进行求解;将低层启发式LLH定义为状态,状态间的转移定义为动作,全局探索采用基于Q学习的高层策略,在特定状态下自动选择合适的动作,有效驱动搜索方向,局部开发采用基于问题特性的LLHs,有效地丰富了搜索行为。使用基于插入的加速策略有效节省了计算成本并提高搜索效率;提高了初始解的质量,本发明专利技术旨在确定DABFSP中各工厂的产品分配、工件的加工顺序和产品的装配顺序,使所有工厂的最大完工时间实现最小化。

【技术实现步骤摘要】

本专利技术公开了一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,属于生产调度。


技术介绍

1、调度旨在对活动间的可用资源进行合理分配,权衡多个冲突目标,并在特定时间范围内满足不同决策者的要求,它是现代供应链和制造系统的重要组成部分。近年来,随着智能制造和工业4.0的迅猛发展,加之全球化趋势促使企业面临着严峻且复杂的问题,如动态需求,经济效益和生产模式,制造企业转变制造方式,并购和管理多区域制造中心或工厂,以提供灵活性和适应性来面对激烈的竞争。因此,传统的集中式单工厂生产模式已经转向新兴的分布式装配生产模式,不可避免地需要解决三个重要问题:如何分配工件到工厂,如何安排工件在工厂的处理,以及如何调整产品的装配。因此,开发有效和高效的算法与新兴技术解决分布式车间调度问题(distributed shop scheduling problems,dssps)具有显著意义。

2、在以往的dssps研究中,分布式装配置换流水车间问题(distributed assemblypermutation fsp,dapfsp)已经成为热点研究问题;然而,许多现有的dapfsp研究都假设流水车间中的连续加工机器之间缓冲区容量无限,这意味着工件可以临时存储在中间缓冲区中。但是,在实际生产中,由于工艺特性或技术要求,相邻机器之间是不允许有缓冲区的或缓冲区不可用,这意味着在某台机器上加工完的工件必须留在当前加工机器上,不能立即释放到下一台机器上,这种情况被称为阻塞。由于缓冲区容量或存储设备限制,这种情况在实际生产中经常发生。阻塞会增加工件的处理时间,因此合理减少阻塞时间以提高机器生产效率至关重要。分布式装配阻塞流车间调度问题是一类重要的离散优化问题,该问题更贴近实际。因此,对考虑阻塞约束的分布式装配阻塞流水车间调度问题(dabfsp)的研究不仅具有实际意义,而且具有潜在的应用前景。

3、dabfsp可以分解成两个强耦合的子问题,工件加工子问题和产品装配子问题,进而衍生出四个紧密耦合的子决策:分配工件到工厂,调整每个工厂内工件的加工顺序,安排装配机上的产品,同时减少机器间的阻塞时间。一般来说,对于大规模的dabfsp问题,由于其计算复杂性,很难用精确的数学方法求解,如分支定界法和列生成法;构造性启发式算法通常可以根据基于问题的规则和约束构造出可行解决方案,并快速提供合适的调度计划,但很难保证解决方案的优越性。

4、在调度领域,混合智能优化算法(hybrid intelligent optimizationalgorithms,hioas)已成为解决此类问题的主流方法。hioas通常使用有效的进化机制、特定的搜索策略和高效的邻域算子在有限时间内产生一些满意的调度方案。hioas在解决强耦合的复杂调度问题方面有显著效果。超启发式算法(hyper-heuristic algorithms,hhas)是一类备受关注的hioas。hha通常由高层策略和一组低层启发式组成,它并非直接在问题的解空间内搜索,而是主要应用高层策略(hls)来管理或操纵一系列预先设计的低层启发式(llh),确定llh在策略空间或启发式搜索空间中的最佳顺序,然后执行所选择的llh来搜索解空间以找到更多优质解。由于hha能够自动选择、集成和开发简单有效的启发式算法,因此它们在组合优化问题中具有广泛应用。hha的搜索行为通常可以分为两类,即,启发式生成和启发式选择。前者采用适当的高层策略来构建启发式,后者采用合适的选择策略来提取llh和评估其有效性。根据文献调研,大多数研究通常利用基于进化算法的方法或基于人工智能的方法作为高级选择策略。强化学习(reinforcement learning,rl)通过面向目标的学习机制集成了感知、自适应学习和自主决策,具有较强的学习能力。rl旨在通过智能体(agent)与环境之间的动态交互来获得经验并执行最佳搜索行为。一般来说,rl具有两个关键特征:试错搜索和延迟奖励政策。在rl框架中,智能体基于一个或多个具有明确定义的目标(即最大化累积奖励)能够感知环境的可能状态,然后采取行动来改变它。q学习是一种较为成功的学习策略,它允许智能体通过学习获得一个动作值函数进而确定最佳搜索行为,该函数表达了在某些特定状态下应用适当动作所产生的预期效用。因此,基于q学习的超启发式可以提供适当的策略来选择合适的搜索行为,并引导搜索趋势朝着有希望的区域发展;这些优越性启发了基于q学习的超启发式进化算法(qlhhea)的设计,并将其用以解决dabfsp。


技术实现思路

1、本专利技术的目的在于提供一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,确定dabfsp各工厂的产品分配、工件的加工顺序和产品的装配顺序,使所有工厂的最大完工时间最小化;设计了12个有效的低层启发式并将其都定义为状态,状态之间的转移定义为动作,基于q-学习的进化框架作为hls调控llhs以搜索解空间;制定了两个基于插入的加速策略,以减小评估解的时间复杂度节省计算成本加快搜索效率;其次,开发了一个基于问题特性的构造启发式方法以产生高质量的初始解。

2、为实现上述目的,本专利技术提供的技术方案如下:

3、一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,具体包括如下步骤:

4、步骤1:初始化种群、q表,低层种群中的个体采用构造启发式方法生成,高层种群中的个体随机产生,两种群规模相同(大小为popsize);设置相关参数;设置状态动作对的q值(q-value)为零。

5、步骤2:采用前向或后向计算方法来解码每个个体获取全局最优解πbest,同时在评估解时执行基于插入的两种加速策略以节省评估解决方案的计算成本。

6、步骤3:对低层个体中的可行调度解依次执行高层个体(由12种高效启发式构成)中的llh(即状态,此处定义一个llh到另一个llh的转换为动作),如果新解适应值更好,则用新解替换老解并更新全局最优解;计算每个高层个体的贡献率(cr),据此选择个贡献率高的高层个体,采用更新机制更新q表;同时设置count=0。

7、步骤4:采样更新后的q表生成新的高层个体,即利用基于q学习的高层策略操作低层启发式以搜索解空间。

8、步骤4.1:利用行动选择策略来选择状态st,获取动作at和下一个状态st+1。

9、步骤4.2:将状态st+1应用于πbest上得到π′best;计算πbest的适应值(c(πbest))、c(π′best)、ir,获取奖励函数r(st,at);更新q值(qt+1(st,at)),概率εt和πbest。

10、步骤4.3:如果c(π′best)<c(πbest),更新全局最优解πbest为π′best,否则跳转步骤4.1。

11、步骤4.4:如果count=popsize,则跳转至步骤3,否则跳转到步骤4。

12、步骤5:检查停止条件是否满足,如果不满足则跳转步骤4,否则输出πbest。

13、优选本文档来自技高网...

【技术保护点】

1.一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤(1)中所述低层种群中的个体采用构造启发式方法生成,具体包括以下步骤:

3.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:采用前向或后向计算方法来解码每个个体获取全局最优解πbest,具体步骤如下:

4.根据权利要求3所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:所述基于插入的两种加速策略具体包括以下步骤:

5.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤3中所述高层个体由12种启发式LLH构建得到,这些启发式可以分为两类:一类是基于关键路径的,另一类是基于非关键路径的;将关键路径所经过的工厂命名为关键工厂,将分配给关键工厂的产品和工件命名为关键产品和关键工件;所设计的启发式的如下:

6.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤(3)中所述更新机制由于Q表记录了智能体agent从环境中学习到的知识,所以Q(st,at)的q-value反映了agent在状态st∈S下执行动作at∈A的优先偏好;对于每个状态-动作对(st,at),Q(st,at)通过加权即时奖励r(st,at)和折现的q-value来更新,可由以下公式计算:

7.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤4.1所述行动选择策略具体如下:

8.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤4.2所述奖励函数为设计如下式:

...

【技术特征摘要】

1.一种基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤(1)中所述低层种群中的个体采用构造启发式方法生成,具体包括以下步骤:

3.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:采用前向或后向计算方法来解码每个个体获取全局最优解πbest,具体步骤如下:

4.根据权利要求3所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:所述基于插入的两种加速策略具体包括以下步骤:

5.根据权利要求1所述基于超启发式强化学习的分布式装配阻塞流水车间调度方法,其特征在于:步骤3中所述高层个体由12种启发式llh构建得到,这些启发式可以分为两类:一类是基于关键路径的,另一类是基于非关...

【专利技术属性】
技术研发人员:张梓琪李瑛钱斌胡蓉
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1