一种基于强化学习的服务任务调度方法技术

技术编号：29967781 阅读：27 留言：0更新日期：2021-09-08 09:39

本发明专利技术公开了一种基于强化学习的服务任务调度方法，能对一段较长时间内的服务任务需求下的服务人员调度给出较为合理的安排。首先根据服务任务需求对服务任务进行数学建模，构建服务任务环境。然后使用ε

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的服务任务调度方法

[0001]本专利技术属于运筹优化管理领域，尤其涉及一种基于强化学习的服务任务调度方法。
技术背景
[0002]服务任务调度技术是一项在服务任务需求下的服务人员调度技术，即在一段时间内，给定每日的服务任务需求量、服务任务需求的约束条件、可调度的服务人员信息，给出符合每日服务任务需求量且满足服务任务需求约束条件的服务人员调度安排的技术。
[0003]强化学习是一种机器学习方法，主要包括智能体、环境两大实体。智能体在环境中选择不同动作进行“尝试”和“试错”，获得环境的奖励，通过对不同状态下采取不同动作所获得的奖励值进行学习，进而优化在不同状态下的动作选择策略，最终使得智能体最大化获得的奖励。
[0004]近年来，随着深度强化学习的发展，强化学习在解决组合优化问题方面快速发展。强化学习方法对组合优化问题进行建模得到环境，在环境中进行学习训练，最终得到一个解决对应组合优化问题的动作选择策略。通过动作选择策略在不同情况下直接输出动作的方式，强化学习方法可以快速给出对应组合优化问题的解。
[0005]传统的服务任务调度技术主要使用启发式搜索方法或遗传算法的方法。其中基于启发式搜索方法主要依靠人为经验制定启发式策略，利用启发式策略进行优化搜索。其搜索效率、搜索效果直接取决于制定的启发式策略，但一个优秀启发式策略制定困难且受限于策略制定人的认知。遗传算法主要是模拟自然界生物进化的方式通过染色体选择、交叉、变异等过程，寻求较优解的方法。由于变异的随机性，该方法在变异过程中可能...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的服务任务调度方法，其特征在于，包含以下步骤：1)对服务任务进行建模，构建服务任务环境。2)使用ε
‑
Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排。3)基于步骤2)得到的服务人员工作安排，使用强化学习方法对不同工作安排的价值差异进行学习，并使用深度神经网络Q近似不同调度安排的价值。4)基于步骤3)训练得到的深度神经网络Q，对服务人员不同调度安排的价值进行预测，选择输出较优的人员调度安排。2.如权利要求1所述基于强化学习的服务任务调度方法，其特征在于，所述步骤1)中，根据服务任务需求对服务任务建模，构建服务任务环境方法：1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化。服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数。1.2)规定服务任务环境可选动作集合为A＝{休息，工作}。1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式。计算服务人员满足服务任务需求的调度方式的方法如下：其中，c表示该服务人员已经连续工作的天数，l表示剩余需要调度安排的天数，M表示服务人员最大连续工作天数，m表示服务人员最小连续工作天数，r表示剩余需要调度的天数中该服务人员还需要休息的次数，x
i
为i天，表示连续工作i
‑
1天后休息1天的安排。t
i
表示在剩余需要调度的天数中x
i
安排的可选次数。由此我们可以根据t
i
和c给出当前满足服务任务需求的可选安排。1.4)根据服务任务需求定义服务任务环境的动作奖励。1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排，完成第1天的调度安排后再从第2天第1个服务人员开始，直到需要安排调度的最后一天完成后结束。服务任务环境在每一次安排前给出当前的服务任务环境状态s
t
，以及当前服务人员可选的满足服务任务需求的调度安排A
′
，接收智能体对当前的调度安排a({a|a∈A})，给出当前安排的即时奖励r
t
，并迭代环境到下一状态s
t+1
，重复这一安排过程直至环境到达结束状态，即完成了整个服务任务的服务人员调度。3.如权利要求1所述基于强化学习的服务任务调度方法，其特征在于，使用ε
‑
Greedy进行半随机人员工作安排：2.1)ε
‑
Greedy方法如下：
通过产生一个[0，1)的随机数，如果产生的随机数小于ε则在当前可选动作集合A
′
中随机选择一个a作为当前的动作，即当前服务人员的调度安排；如果产生的随机数不小于ε，则通过全连接深度神经网络Q对当前状态s
t
下的不同的服务人员调度方式的价值进行预测，选取价值最大的服务人员调度方式作为当前服务人员的调度安排。2.2)将步骤2.1)中ε
‑
Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中，使服务任务环境执行调度安排a，给出即时奖励r
t
，服务任务环境从s
t
状...

【专利技术属性】
技术研发人员：曹斌，陈德胜，陈灏，李甜甜，范菁，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人