一种基于强化学习的任务分配方法组成比例

技术编号:26173410 阅读:29 留言:0更新日期:2020-10-31 13:56
本发明专利技术属于强化学习技术领域,公开了一种基于强化学习的任务分配方法,包括收集获取员工信息、任务信息;根据员工信息、任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;利用强化学习模型更新员工的当前任务分配阈值;根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。本发明专利技术解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题,能够通过强化学习的方法在线自动地进行任务分配,解决人工任务分配存在的弊端。

A task allocation method based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的任务分配方法
本专利技术涉及强化学习
,尤其涉及一种基于强化学习的任务分配方法。
技术介绍
任务分配是一个企业机构办公时必须面对的问题,很多领域(例如咨询领域)的任务往往不是重复性的,及其需要工作人员的智力与经验,且耗时较长,不同的任务耗时也不一样,难以量化。具体的,例如大型咨询公司因为专业人员多且专业分布广,每个员工的工作任务较为专一,从而在任务分配上比较简单。而小型公司部门少,人员少,项目经验涉猎较少,且不同员工之间对于一个新到达的任务往往没办法找到最优的分配办法。大型咨询领域的公司传统的任务分配往往由部门主管来简单地根据员工特长进行选择分配,或者随机分配,这种需要人力成本的任务分配方法只能达到一个比较一般的效果。然而咨询领域的中小企业很难进行任务分配,因为每个员工都需要负责项目中的多个部分,不同员工间的擅长领域往往有交叉,人力成本的任务分配方法不够有效。且小公司人员变动很大,新老员工交替较快,公司缺乏对新员工的考量,从而也无法高效合理地进行任务分配。强化学习用于描述和解决智能体在与环境的交互过程中通过学习策本文档来自技高网...

【技术保护点】
1.一种基于强化学习的任务分配方法,其特征在于,包括以下步骤:/n步骤1、收集获取员工信息、任务信息;/n步骤2、根据所述员工信息、所述任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;/n步骤3、利用强化学习模型更新员工的当前任务分配阈值;/n步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。/n

【技术特征摘要】
1.一种基于强化学习的任务分配方法,其特征在于,包括以下步骤:
步骤1、收集获取员工信息、任务信息;
步骤2、根据所述员工信息、所述任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;
步骤3、利用强化学习模型更新员工的当前任务分配阈值;
步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。


2.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤1中,所述员工信息包括员工正在进行的任务数量、员工的当前任务分配阈值;所述任务信息包括任务的分配情况信息、任务的进行情况信息。


3.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,所述强化学习模型基于Q学习算法;
所述Q矩阵为二维矩阵,行为状态空间,列为动作空间;每一行对应一种任务分配阈值状态,每一列对应一种行动;行动包括代表任务分配阈值减一的第一行动A1、代表任务分配阈值不变的第二行动A2、代表任务分配阈值加一的第三行动A3;初始化时将所述Q矩阵的值设为0;
所述奖励矩阵R中的每个元素分别代表一种任务分配阈值状态对应的奖励值;初始化时将所述奖励矩阵R设为:在状态为预设任务分配阈值的位置取值为1,其余位置取值为0。


4.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述Q矩阵为8×3矩阵,状态代表的任务分配阈值的取值范围为[0,7],且取正整数。


5.根据权利要求1所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,所述超参数包括:探索次数、迭代轮次、学习率、折扣因子、贪婪因子。


6.根据权利要求3所述的基于强化学习的任务分配方法,其特征在于,所述步骤2中,在每一次的迭代中进行如下操作:
(1)选择一个状态S;
(2)重复如下过程直到状态到达终止状态或者超出探索次数:
初始化一个随机数,随机数的取值范围为[0,1];如果随机数小于贪婪因子,则随机选择行动Ai,i的取值范围为[1,3],且为正整数;如果随机数大于贪婪因子,则选择状态S行中值最大的元素对应的行动Ai,并在当前状态采取此行动得到一个新的状态S’,更新Q矩阵和状态S;
其中,所述终止状态为奖励矩阵中奖励值最大的状态。


7.根据权利要求6所述的基于强化学习的任务分配方法,其特征在于,所述更新Q矩阵和状态S如下式所示:



其中,St...

【专利技术属性】
技术研发人员:徐连王薇
申请(专利权)人:武汉实为信息技术股份有限公司
类型:发明
国别省市:湖北;42

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1