一种基于强化学习的工作排程优化方法技术

技术编号:38027374 阅读:10 留言:0更新日期:2023-06-30 10:53
本发明专利技术提出一种基于强化学习的工作排程优化方法,旨在通过考虑员工实时疲劳程度,优化员工工作排程,进而缩短最大完工时间。首先,分析员工工作与休息状态下的效率变化曲线,构建工作

【技术实现步骤摘要】
一种基于强化学习的工作排程优化方法


[0001]本专利技术属人工智能领域,尤其涉及一种基于强化学习的工作排程优化方法。

技术介绍

[0002]生产过程中,工人需要连续不断投入工作,期间消耗大量体力与精力,产生作业疲劳,导致作业能力下降。因此,安排合理的工作排程,设计有效的优化算法,减轻作业者的工作疲劳,对生产任务的顺利进行具有重要意义。
[0003]针对优化工作排程的问题,传统优化算法通常以最小化总完工时间作为算法的优化目标。然而,传统优化算法在解决工作排程的问题上普遍存在迭代时间长、动态性能差等缺陷,且大多在理论中得到证明。此外,由于实际任务中需完成的工作量处于一种动态变化的状态,因此要求设计的优化算法对于动态性能具备较强的适应能力。
[0004]论文《考虑工人疲劳的工作排程研究》中在考虑工作负荷和工人疲劳及其最大可接受工作时间的基础上,采用0了遗传算法优化求解得到工人的休息时间和休息次数的排程组合方案。但遗传算法中存在迭代时间长,动态性能差等缺陷,难以适应工作量变化的排程问题。论文《基于深度强化学习的模糊作业车间调度问题》中针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,采用深度强化学习算法优化员工调度,寻找最优策略。虽文中同样使用深度强化学习方法,以最小化最大完工时间为目标优化员工调度,但主要是针对模糊加工时间进行优化,而非衡量员工疲劳状态来进行工作排程。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提出了一种基于强化学习的工作排程优化方法。构建工作人员疲劳模型,并采用基于SAC算法的工作排程算法对其进行快速工作排程,调整员工工作与休息时长,提高员工平均工作效率,且在工作量发生变化时,对不同的工作量有一定快速响应能力。
[0006]为达到以上目的,本专利技术采用如下具体技术方案予以解决:
[0007]S1:分析员工工作与休息状态下的效率变化曲线,构建工作

休息排程的数学模型,采用0.5次幂函数模拟休息时间对疲劳恢复的关系,采用三次函数模拟疲劳积累与工作时间的关系,每执行一次工作和休息过程的交替,为一次工息循环,反复进行工息循环,直至完成整个工作量;
[0008]S2:初始化设定,建立员工作业流程所对应马尔可夫决策过程,包含以下步骤:
[0009]S2.1:设定环境状态集S,环境状态集为:
[0010]S={W
T
,E
w
,E
r
,t
work_last
,t
rest_last
,t
total
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0011]式中,W
T
为当前工息循环的剩余工作量,E
w
为上一工息循环中工作过程结束时的工作效率,E
r
为当前时刻工作效率,t
work_last
为上一工息循环的工作时间,t
rest_last
为上一工息循环的休息时间,t
total
为累计已经历时间;
[0012]S2.2:智能体为工作人员,设定智能体动作集A,智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<a
work
,a
rest
>,a
work
,a
rest
∈(0.1,1);
[0013]S2.3:设定环境状态转移矩阵P,状态转移矩阵即为从每一个状态S到其可达的S'的概率组成的矩阵;
[0014]S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即时奖励R
T
及终局奖励R
end
公式:
[0015][0016]式中,T表示第T个工息循环,f
work
(
·
)表示工作状态效率变化函数,f
work_rev
(
·
)表示工作过程中的工作效率变化函数的反函数,E
r,T
‑1为T

1工息循环开始时的工作效率,t
work
表示当前工息循环的工作时间,E
max
为最大工作效率,W
total
为设置的全部工作量大小,η为平衡终局奖励占比的系数;
[0017]S2.5:设定折扣因子γ:未来累计期望奖励的权重系数,将γ设定为0.99;
[0018]S3:设计基于SAC工作排程优化算法,具体包含以下步骤:
[0019]S3.1:初始化环境信息;
[0020]S3.2:智能体做出决策动作;
[0021]S3.3:计算对应工作时间并判断是否完工,若未完工跳转至S3.4;若完工跳转至S3.5;
[0022]S3.4:计算工作后工作效率、对应休息时间、休息后工作效率、累计已经历时间及即时奖励,打包环境状态,然后返回S3.2;
[0023]S3.5:计算累计已经历时间,将工作后工作效率和休息后工作效率置零,计算即时奖励,打包环境状态,程序结束;
[0024]S4:基于S3的训练流程,在线训练智能体直至收敛,将其投入对应工作量工作进行排程;
[0025]S5:切换至不同工作量时,采用工作量快速适应机制,具体包含以下步骤:
[0026]S5.1:加载经验池,加载需进行预训练的模型;
[0027]S5.2:逐条判断经验池中的经验是否满足条件,将满足条件的经验存入拷贝经验池;
[0028]S5.3:按批次从拷贝经验池中抽取经验,对模型进行预训练;
[0029]S5.4:将预训练后模型放入到不同目标工作量的环境中,执行S3,在当前已有经验池的基础上,继续对模型进行在线训练,直至模型收敛。
[0030]本专利技术具有如下有益效果:
[0031](1)本专利技术根据环境特点,设计了相应奖励重塑机制避免造成奖励稀疏,解决了模型在训练过程中难以收敛的问题;
[0032](2)本专利技术提出了一种工作量快速适应机制,通过少量迁移训练,使模型快速适应不同任务目标,减少了模型在切换不同任务后的训练时间;
[0033](3)本专利技术提出的方法相较于传统遗传算法在工作量较大的情况下可以获得更好的优化效果。在8000工作量时,优化效果提升约25.3%;在10000工作量时,优化效果提升约33.6%。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为休息时间

工作效率曲线示意图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的工作排程优化方法,其特征在于,包括以下步骤:S1:分析员工工作与休息状态下的效率变化曲线,构建工作

休息排程的数学模型,采用0.5次幂函数模拟休息时间对疲劳恢复的关系,采用三次函数模拟疲劳积累与工作时间的关系,每执行一次工作和休息过程的交替,为一次工息循环,反复进行工息循环,直至完成整个工作量;S2:初始化设定,将员工作业流程建立为马尔可夫决策过程,包含以下步骤:S2.1:设定环境状态集S,环境状态集为:S={W
T
,E
w
,E
r
,t
work_last
,t
rest_last
,t
total
}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,W
T
为当前工息循环的剩余工作量,E
w
为上一工息循环中工作过程结束时的工作效率,E
r
为当前时刻工作效率,t
work_last
为上一工息循环的工作时间,t
rest_last
为上一工息循环的休息时间,t
total
为累计已经历时间;S2.2:智能体为工作人员,设定智能体动作集A,智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<a
work
,a
rest
>,a
work
,a
rest
∈(0.1,1);S2.3:设定环境状态转移矩阵P,状态转移矩阵即为从每一个状态S到可达的S'的概率组成的矩阵;S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即...

【专利技术属性】
技术研发人员:栾添添胥静班喜程孙明晓尹昭然甄立强付强姬长宇
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1