一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法技术

技术编号:31235140 阅读:19 留言:0更新日期:2021-12-08 10:16
本发明专利技术公开了一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法,包括如下步骤:1)分析归纳出多扰动车间生产调度的扰动因素;2)基于元胞机建模的思想对一类多扰动车间的调度问题进行抽象,归纳模型抽象的特点与运行机理,完成双层元胞机调度模型的建立,构建元胞机调度模型的双层元胞空间;3)基于强化学习算法的思想对多扰动车间元胞机调度模型的演化规则进行优化;4)建立仿真模型系统。本发明专利技术基于元胞机和强化学习算法的一类多扰动车间柔性生产调度模型可扩展到各类具有多扰动因素的制造企业,对于快速有效地形成干扰事件的响应机制、根据环境特征提供实时柔性调度决策、提高决策的科学性和制造服务水平具有重要理论意义。要理论意义。要理论意义。

【技术实现步骤摘要】
一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法


[0001]本专利技术涉及一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法。

技术介绍

[0002]近年来,大型装备制造业的发展极大地促进了国家经济发展和综合国力的提升,成为了一个国家或地区工业化水平、现代化发展程度的重要标志[。大型装备制造是制造业内复杂又独特的一种生产类型,涉及的零部件种类通常以万计数,其产品具有结构复杂、尺寸大、客户个性需求多、生产周期长的特点,订货为单件或小批量且订单不稳定,生产以柔性流水、离散的方式为主,是一类典型的多品种、多工艺、中小批量、高柔性的制造模式。众多大型装备制造企业采用的是订单驱动、综合流程、多功能生产设备的制造方式,典型的企业有船舶、飞机、空分设备等等。如何做好这一类零件的生产工作便显得很有意义。

技术实现思路

[0003]本专利技术针对于以大型装备制造为代表的一类企业生产,这类生产具有产品结构复杂、尺寸与重量大、生产周期长、作业计划动态性强等特点,是典型的多品种、多工艺、小批量、高柔性和多扰动特征的生产模式。本专利技术将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法,其特征在于包括如下步骤:1)分析一类多扰动车间生产特点以及调度的原型特征,归纳出生产调度的扰动因素,建立扰动判别模型;2)基于元胞机建模的思想对一类多扰动车间的调度问题进行抽象,归纳模型抽象的特点与运行机理,完成双层元胞机调度模型的建立,构建元胞机调度模型的双层元胞空间,完成元胞状态描述、邻域构造、工件粒子属性以及边界条件的设置,设立最小化所有工件完工时间和最大化同组设备的平均利用率的双调度目标,并设定生产调度元胞机模型的工位选择、工件排序和任务触发的演化规则,通过工位选择、工件排序和任务触发的规则,阐明静态调度的元胞机模型演化过程;3)基于强化学习算法的思想对多扰动车间元胞机调度模型的演化规则进行优化:以元胞状态为基础,构建强化学习系统状态;以扰动元胞给予的扰动信息和工序完工信息为触发事件,设置状态转移机制,表征元胞的演化;建立强化学习的动作决策表征粒子在元胞空间的转移;根据调度目标设置报酬函数表征粒子移动的奖励,通过驱动机制实现调度系统的状态转移和实时决策,实现在Q学习框架下的动态调度,提高调度对扰动的适应性,增加在多扰动环境下调度的柔性,进行算例学习和算法验证;而Q学习算法本身能够利用经历过的状态—动作序列来决策最优的行为,是一种用于控制的基于行为值函数的强化学习算法,其更新行为的值函数增量式如下,其中α∈A(S
t+1
):Q(s
t
,α
t
)=Q(s
t
,α
t
)+α[r
t+1

×
Q(s
t+1
,α)

Q(s
t
,α
t
)]其中,α表示学习步长,r
t+1
表示汇报值;Q
×
(s,a)值是逐步迭代学习得来的,通过与环境的持续交互来更新表值,直至Q表囊括了绝大多数的环境状态的下Q值,随着交互过程的进行,最终收敛于最优状态动作值函数Q
×
(s,a);4)应用SQL Server构建仿真模型数据库,采用VB设计仿真模型界面,基于MATLAB实现仿真模型运算,建立仿真模型系统。2.如权利要求1所述的一种基于强化学习的一类多扰动车间柔性调度建模与优化的方法,其特征在于步骤2)中双层元胞机调度模型的建立如下:步骤一:先进行元胞机建模过程,元胞机包括空间网格化和演化规则,其建模过程是采用自下而上的自组织建模方法,主要包括网格分割、状态初始化及构造演化规则,具体步骤如下:S1:基于标准元胞机模型的基本原理,从元胞空间、元胞状态、邻域和局部演化规则四个基本组成部分出发,将作业跨生产车间抽象成一个二维网格系统,从而构建得到一个生产调度二维元胞机模型;对任意时刻某元胞及其邻域元胞的状态进行描述,设置生产调度元胞机模型的初始条件和边界条件;S2:确定元胞的初始化状态,设定为布尔值或连续变量值;S3:设定生产调度元胞机模型的工位选择、工件排序和任务触发的演化规则;步骤二:对生产调度元胞机模型的演化规则进行优化,包括以下过程:对于元胞机的每个调度单元各时步内的模型描述为:在含m个同类工位的工位组中加工n个工件粒子,缓存元胞数量与工位个数对应;各工位加工效率不同,各工件在此工位组只需完成一道工序,根据实际生产状况每道工序可供选择的工位数量是工位组中的全部或
某几个,且在不同工位所需的加工时间不同;设工位集合为s={s1,s2,s3,......,s
m
};...

【专利技术属性】
技术研发人员:陈勇陈键姜一炜林渲皓邱洪斌段旭海林罕裴植王成易文超张文珠
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1