一种基于迁移强化学习的生产系统调度方法技术方案

技术编号:22640169 阅读:20 留言:0更新日期:2019-11-26 15:48
本发明专利技术公开了一种基于迁移强化学习的生产系统调度方法,包括步骤:(1)定义生产系统的状态和动作;(2)生产系统调度问题Q学习建模;(3)建立生产调度案例库;(4)计算目标任务与源任务的任务相似度,匹配知识迁移的案例集;(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;(6)计算目标任务状态与案例集中案例的状态相似度,匹配知识迁移的案例;(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;(8)根据修正后的动作选择策略执行动作,更新状态和Q值表。本发明专利技术相对于Q学习提高了学习性能,有效解决了生产任务在线调度的实时性问题。

A scheduling method of production system based on transfer reinforcement learning

The invention discloses a production system scheduling method based on transfer reinforcement learning, which comprises the steps of: (1) defining the state and action of the production system; (2) Q-learning modeling of the production system scheduling problem; (3) establishing the production scheduling case database; (4) calculating the task similarity between the target task and the source task, matching the case set of knowledge migration; (5) establishing the action mapping relationship between the source task and the target task System, transfer the action knowledge of the source task to the target task; (6) calculate the similarity between the state of the target task and the case set, match the case of knowledge transfer; (7) map the action of the selected case to the action of the target task, and modify the action selection strategy to realize knowledge transfer; (8) execute the action according to the modified action selection strategy, and update the state and Q-value table. Compared with Q-learning, the invention improves the learning performance and effectively solves the real-time problem of online scheduling of production tasks.

【技术实现步骤摘要】
一种基于迁移强化学习的生产系统调度方法
本专利技术属于智能机器人领域,特别涉及一种基于迁移强化学习的生产系统调度方法。
技术介绍
随着信息技术、机器人技术的不断发展,机器人在工业生产上发挥着越来越重要的作用。与此同时,随着“工业4.0”和“中国制造2025”等主题的提出和发展,以及目前生产越来越趋向于小批量、个性化,制造周期越来越短,柔性智能化制造是我国制造业发展的必然趋势。柔性智能化制造的一个典型应用场景就是由智能决策中心、工业机器人、数控机床等组成的智能制造系统,智能决策中心的一个关键问题是生产系统的实时调度问题,需要在较短的时间内求解出生产系统中各工作单元和搬运机器人的动作时序,满足最小完工时间等优化目标。当前求解对复杂生产调度问题主要采用基于人工智能的方法,虽然可以在可接受的求解时间内获得较优解,但仍需较多的计算时间,且当生产调度问题稍作改变时,需要重新求解。另一方面,生产系统中往往存在一些与当前任务相似的生产调度案例,这些案例往往包含对当前任务有帮助的信息。因此,研究一种利用已有的相似案例知识,加速求解生产调度策略的方法具有重大意义。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种基于迁移强化学习的生产系统调度方法,可以利用已有的相似案例进行知识迁移,克服复杂生产调度策略求解效率低的问题。本专利技术为实现上述目的采用以下的技术方案:一种基于迁移强化学习的生产系统调度方法,包括如下步骤:(1)定义生产系统的状态和动作;(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;(3)建立生产调度案例库;(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。进一步地,所述步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))其中,二元组(mji,tji)表示工件Ji的状态,mji表示Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或mji=ASk,若Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标。进一步地,所述步骤(1)中,定义生产系统发生状态改变的时刻为AGV中任意一台在加工/装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr的在tc时刻的动作arc定义如下:其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:ac=(a1c,a2c,…,aqc)。进一步地,所述步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc:其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态sc+1所需时间;K表示不小于所有Δti的正实数。进一步地,所述步骤(3)中,建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成,其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。进一步地,所述步骤(4)中,定义任务相似度Similaritytask的计算如下:其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。进一步地,所述步骤(5)中,由于源任务案例建议的动作对应于源任务中的工件,而案例中工件采取的标记往往和目标任务中工件的标记不相同,若此时直接采取案例建议的动作,则在目标任务中该动作无意义,不能直接执行该动作,需建立从源任务到目标任务的动作映射:atarget=fA(asource)=matchResulti[vsource]其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。进一步地,所述步骤(6)中,计算目标任务状态与案例集中案例的状态相似度Similaritystate具体包括步骤:首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping:其中,表示目标任务中工件所处的位置,表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping:其中,表示当前工件的完工进度;最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。进一步地,所述步骤(7)中,在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值Hc(sc,ac)的计算方法如下:其中,η是用于本文档来自技高网...

【技术保护点】
1.一种基于迁移强化学习的生产系统调度方法,其特征在于,包括如下步骤:/n(1)定义生产系统的状态和动作;/n(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;/n(3)建立生产调度案例库;/n(4)计算目标任务与源任务的任务相似度Similarity

【技术特征摘要】
1.一种基于迁移强化学习的生产系统调度方法,其特征在于,包括如下步骤:
(1)定义生产系统的状态和动作;
(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;
(3)建立生产调度案例库;
(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;
(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;
(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;
(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;
(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。


2.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:
sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))
其中,二元组(mji,tji)表示工件Ji的状态,mji表示Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或mji=ASk,若Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标。


3.根据权利要求2所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(1)中,定义生产系统发生状态改变的时刻为AGV中任意一台在加工/装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr的在tc时刻的动作arc定义如下:



其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;
生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:
ac=(a1c,a2c,…,aqc)。


4.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc:



其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态sc+1所需时间;K表示不小于所有Δti的正实数。


5.根据权利要求1所述基...

【专利技术属性】
技术研发人员:翟敬梅郭培森
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1