任务下发方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:28478427 阅读:18 留言:0更新日期:2021-05-15 21:47
本发明专利技术提供一种任务下发方法、装置、电子设备及可读存储介质,其中方法包括:获取目标助手的待下发任务列表,待下发任务列表中的每个待下发任务均关联有备选处理人列表;以备选处理人列表所关联的处理人为粒度,确定动态环境,并基于动态环境,利用马尔科夫决策模型,确定待下发任务列表中目标任务将被下发给的目标处理人;其中,马尔科夫决策模型为通过确定所关联的处理人的状态空间和收益,并通过将整体决策时间离散化来拟合强化学习场景获取的。本发明专利技术通过有效定义处理人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾处理人的处理能力,从而有效提高任务处理效率和可靠性,最大化整体收益。最大化整体收益。最大化整体收益。

【技术实现步骤摘要】
任务下发方法、装置、电子设备及可读存储介质
[0001]

[0002]本专利技术涉及人工智能
,尤其涉及一种任务下发方法、装置、电子设备及可读存储介质。
[0003]
技术介绍

[0004]目前,在给经纪人下发任务时都是孤立下发的。例如,不同的助手在给经纪人下发任务时,都是相互独立的向经纪人下发。
[0005]但是,采用上述处理方式下发任务时,可能出现多个助手都将任务下发到同一个经纪人,甚至在同一时间将任务下发给同一个经纪人的情况。然而,经纪人的精力往往有限,且通常无法同时处理多个任务,这将影响到任务的处理效率,且更容易出现错误,可靠性降低。
[0006]
技术实现思路

[0007]本专利技术提供一种任务下发方法、装置、电子设备及可读存储介质,用以解决现有技术存在的任务处理效率低、易出错且可靠性不高等问题的缺陷,实现有效提高任务处理效率和可靠性的目标。
[0008]本专利技术提供一种任务下发方法,包括:获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;以所述备选处理人列表所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种任务下发方法,其特征在于,包括:获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。2.根据权利要求1所述的任务下发方法,其特征在于,在所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人之前,还包括:根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数;基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型。3.根据权利要求2所述的任务下发方法,其特征在于,所述构建所述马尔科夫决策模型,包括:构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。4.根据权利要求2所述的任务下发方法,其特征在于,所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,包括:确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。5.根据权利要求2或3或4所述的任务下发方法,其特征在于,基于所述降维后的状态空
间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:;式中,E
V(s|u)
表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,表示下一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步长,γ表示折扣因子。6.根据权利要求2所述的任务下发方法,其特征在于,基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:决策目标函数:约束条件:式中,约束条件表示每一个所关联的处理人执行任务的个数不能多于当前剩余执行任务次数,约束条件表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在package
i
中,则D

【专利技术属性】
技术研发人员:冯伟武晓飞王文彬
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1