【技术实现步骤摘要】
一种基于强化学习的工作排程优化方法
[0001]本专利技术属人工智能领域,尤其涉及一种基于强化学习的工作排程优化方法。
技术介绍
[0002]生产过程中,工人需要连续不断投入工作,期间消耗大量体力与精力,产生作业疲劳,导致作业能力下降。因此,安排合理的工作排程,设计有效的优化算法,减轻作业者的工作疲劳,对生产任务的顺利进行具有重要意义。
[0003]针对优化工作排程的问题,传统优化算法通常以最小化总完工时间作为算法的优化目标。然而,传统优化算法在解决工作排程的问题上普遍存在迭代时间长、动态性能差等缺陷,且大多在理论中得到证明。此外,由于实际任务中需完成的工作量处于一种动态变化的状态,因此要求设计的优化算法对于动态性能具备较强的适应能力。
[0004]论文《考虑工人疲劳的工作排程研究》中在考虑工作负荷和工人疲劳及其最大可接受工作时间的基础上,采用0了遗传算法优化求解得到工人的休息时间和休息次数的排程组合方案。但遗传算法中存在迭代时间长,动态性能差等缺陷,难以适应工作量变化的排程问题。论文《基于深度强化学习的模糊作业车间调度问题》中针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,采用深度强化学习算法优化员工调度,寻找最优策略。虽文中同样使用深度强化学习方法,以最小化最大完工时间为目标优化员工调度,但主要是针对模糊加工时间进行优化,而非衡量员工疲劳状态来进行工作排程。
技术实现思路
[0005]针对现有技术存在的问题,本专利技术提出了一种基于强化学习的工作排程 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的工作排程优化方法,其特征在于,包括以下步骤:S1:分析员工工作与休息状态下的效率变化曲线,构建工作
‑
休息排程的数学模型,采用0.5次幂函数模拟休息时间对疲劳恢复的关系,采用三次函数模拟疲劳积累与工作时间的关系,每执行一次工作和休息过程的交替,为一次工息循环,反复进行工息循环,直至完成整个工作量;S2:初始化设定,将员工作业流程建立为马尔可夫决策过程,包含以下步骤:S2.1:设定环境状态集S,环境状态集为:S={W
T
,E
w
,E
r
,t
work_last
,t
rest_last
,t
total
}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,W
T
为当前工息循环的剩余工作量,E
w
为上一工息循环中工作过程结束时的工作效率,E
r
为当前时刻工作效率,t
work_last
为上一工息循环的工作时间,t
rest_last
为上一工息循环的休息时间,t
total
为累计已经历时间;S2.2:智能体为工作人员,设定智能体动作集A,智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<a
work
,a
rest
>,a
work
,a
rest
∈(0.1,1);S2.3:设定环境状态转移矩阵P,状态转移矩阵即为从每一个状态S到可达的S'的概率组成的矩阵;S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即...
【专利技术属性】
技术研发人员:栾添添,胥静,班喜程,孙明晓,尹昭然,甄立强,付强,姬长宇,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。