基于深度强化学习的预测式外呼任务分配方法及外呼系统技术方案

技术编号:31831594 阅读:16 留言:0更新日期:2022-01-12 13:08
本发明专利技术公开了一种基于深度强化学习的预测式外呼任务分配方法及外呼系统,该方法能根据不同的外呼状态预测输出适当的外呼量。首先根据外呼系统工作流程对外呼进行数学建模,构建虚拟外呼环境。然后使用ε

【技术实现步骤摘要】
基于深度强化学习的预测式外呼任务分配方法及外呼系统


[0001]本专利技术属于智能客服领域,尤其涉及一种基于深度强化学习的预测式外呼任务分配策略及外呼系统。

技术介绍

[0002]预测式外呼任务分配策略是一项在外呼环境条件下预测外呼量的技术。外呼是客服通过拨号主动给客户提供服务的方法。传统的外呼中,客服采用手动拨号的方式,在结束一通电话后拨出下一通电话,经过振铃以及被挂断无数次后再次接通下一个电话。而区别于传统的手动外呼,自动外呼系统则省略坐席服务人员手动拨号这一繁琐步骤,直接由系统一次性拨出多个电话,再将接通的电话转接到客服所在的坐席。但无法准确控制外呼量导致出现了较高的呼损率以及坐席服务人员长期空闲造成的时间浪费等问题。预测式外呼技术,即给定当前坐席空闲数量、任务剩余呼出数、等待接入坐席的通话数等相关信息,预测得出适当的外呼量,达到呼损率低且坐席空闲时间少的目的。
[0003]强化学习是一种机器学习方法,其作用方式类似人类自身的学习过程,通过与环境进行动作交互,根据环境的反馈奖励进行学习,进而对不同状态下采取不同动作可能带来的价值进行学习,通过对不同状态下可采取的所有动作的价值进行预测,最终给出当前状态下最佳的动作选择。
[0004]自动外呼系统的核心是外呼量的预测。系统通过预测下一批拨出的电话数,使得坐席结束上一通电话后就有新的客户电话分配、客户刚应答就有坐席空闲接听。一个好的预测式外呼方法不仅提高坐席的工作效率,同时也需要抑制呼损不超过可忍受的范围。目前的预测式外呼技术主要使用设计公式计算控制外呼量,公式设计不同,得到的外呼量和外呼结果也不同。面对不同的业务需求,公式中包含的参数需要重新反复的计算测试才能达到期望的结果。人为主观控制对公式结果影响较大以及数据统计耗费时间,导致公式无法灵活使用。
[0005]深度强化学习将深度学习的感知能力和强化学习的决策能力结合。其经过大量尝试与模拟,使用深度神经网络逼近价值函数,最终得到一个好的模型应用于实际环境中进行决策。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供一种基于深度强化学习的预测式外呼任务分配方法,该方法可以在外呼系统中智能预测呼出量,无需认为干预,在满足降低呼损、减少坐席空闲时间目标的同时具有快速输出、合理预测的特点,可极大提高外呼效率。
[0007]一种基于深度强化学习的预测式外呼任务分配方法,包含以下步骤:
[0008]通过对外呼进行建模,构建用于强化学习的虚拟外呼环境;
[0009]基于ε

Greedy方法在所构建的虚拟外呼环境中进行半随机呼出,获得环境返回的奖励和状态;
[0010]采用深度强化学习方法对不同外呼环境状态下的不同外呼量的价值进行学习,使深度神经网络近似外呼量的价值函数;训练得到可以对不同呼出量进行价值预测的深度神经网络Q;
[0011]利用得到的深度神经网络Q对实际呼出状态下不同外呼量进行价值预测,选取价值最高的外呼量进行输出。
[0012]进一步的,构建虚拟的外呼环境的方法包括如下:
[0013]1.1)基于外呼系统的工作流程生成一个固定容量的呼叫池、振铃队列、等待队列以及通话队列,确定用于描述外呼环境的状态集合,由状态集合中各状态描述分量构成的向量表示外呼环境的状态St;
[0014]该环境依据外呼系统的工作流程模拟每一通电话的完成过程。外呼系统的工作流程包括抽取导入电话名单的一部分放入呼叫池中、按照呼出量呼出呼叫池中的电话、将客户接通的电话转入等待队列、当有坐席显示空闲时将等待队列中还在等待的客户接入坐席进行通话。基于此流程,生成一个固定容量的呼叫池、振铃队列、等待队列以及通话队列,并对每一通拨出的电话模拟生成呼叫时间、是否接通、接通后等待的时间、等待时间结束前能否接入坐席、坐席服务时长等信息,其中坐席服务时长包括实际通话时长、坐席话后整理时长。
[0015]1.2)规定外呼环境动作集合,呼叫池容量为c,则动作集合为A={0,1,2,3,...,c

1,c}。
[0016]1.3)根据外呼任务需求定义外呼环境的动作奖励。外呼任务需求即寻求最优的呼出方案完成一个服务业务的所有呼出,要求控制呼损率以及坐席服务人员空闲时间。依据呼损大小以及服务人员空闲状态设置动作奖励。
[0017]1.4)使外呼环境接受随机动作呼出量开始呼出。进入呼出流程,计算实际呼出数,呼出电话,对每通电话生成其拨号时间c_t,筛查振铃队列中振铃结束的电话,判断其是接通还是挂断;根据接通数更新等待队列,对于每个进入等待队列的电话生成其等待时间w_t;计算空闲坐席数,将等待队列中等待电话分配给剩余空闲坐席并生成其通话时间s_t,更新通话队列;呼出流程中计算呼损奖励以及坐席空闲奖励,当所述外呼环境可返回空闲坐席数等环境状态信息以及奖励,完成环境的一个动作的更新并从当前状态s
t
更迭到下一个状态s
t+1
,则虚拟外呼环境构建成功。重复接受动作呼出量直到完成业务总共需要呼出的电话数量并且结束最后一通通话后结束。
[0018]进一步的,使用ε

Greedy进行半随机呼出:
[0019]2.1)ε

Greedy方法如下:
[0020][0021]通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A中随机选择一个a作为当前的动作,即呼出量为a;如果产生的随机数不小于ε,则通过深度神经网络Q近似值函数对当前状态下的不同的呼出量的价值进行预测,选取价值最大的呼出量作为当前动作。本方法中深度神经网络Q中输入状态s
t
,计算出动作集合A中的每一个a被选择后会产生的价值,输出Q(s
t
,a)。
[0022]2.2)将步骤2.1)中ε

Greedy产生的呼出量a输入到步骤1)中的外呼环境中,使外
呼环境呼出a,给出即时奖励r
t
,外呼环境从s
t
状态转移到s
t+1
状态,将状态转移元组(s
t
,a
t
,r
t
,s
t+1
)存储到记忆M中。
[0023]进一步的,使用深度强化学习方法对不同状态下呼出量的价值差异进行学习训练:
[0024]3.1)外呼环境每经过n次外呼环境状态转移,从记忆M中对状态转移元组(s
t
,a
t
,r
t
,s
t+1
)进行抽样得到训练数据集D。
[0025]3.2)计算每个状态转移元组中s
t
状态采取动作a
t
时对应的真实价值y
t
:
[0026][0027]其中r
t
为状态s
t
时采取动作a
t...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的预测式外呼任务分配方法,其特征在于,包括如下:通过对外呼进行建模,构建用于强化学习的虚拟外呼环境;基于ε

Greedy方法在所构建的虚拟外呼环境中进行半随机呼出,获得环境返回的奖励和状态;采用深度强化学习方法对不同外呼环境状态下的不同外呼量的价值进行学习,训练得到可以对不同呼出量进行价值预测的深度神经网络Q;利用得到的深度神经网络Q对实际呼出状态下不同外呼量进行价值预测,选取价值最高的外呼量进行输出。2.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,依据外呼系统的工作流程以及外呼任务需求,对外呼建模构建用于强化学习的虚拟外呼环境,具体包括如下:1.1)基于外呼系统的工作流程生成一个固定容量的呼叫池、振铃队列、等待队列以及通话队列,确定用于描述外呼环境的状态集合,由状态集合中各状态描述分量构成的向量表示外呼环境的状态St;1.2)规定外呼环境动作集合,呼叫池容量为c,则动作集合为A={0,1,2,3,...,c

1,c};1.3)依据呼损大小以及坐席空闲状态设置动作奖励;1.4)使外呼环境接受随机动作呼出量开始呼出,进入呼出流程,计算实际呼出数,对每通电话生成其拨号时间c_t,筛查振铃队列中振铃结束的电话,判断其是接通还是挂断;根据接通数更新等待队列,对于每个进入等待队列的电话生成其等待时间w_t;计算空闲坐席数,将等待队列中等待电话分配给剩余空闲坐席并生成其通话时间s_t,更新通话队列;呼出流程中计算呼损奖励以及坐席空闲奖励,当所述外呼环境可返回环境状态信息以及奖励,完成环境的一个动作的更新并从当前状态s
t
更迭到下一个状态s
t+1
,则虚拟外呼环境构建成功。3.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,使用ε

Greedy方法进行半随机呼出,具体为:通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A中随机选择一个a作为当前的动作,即呼出量为a;如果产生的随机数不小于ε,则使用深度神经网络Q近似值函数,对当前状态下的不同的呼出量的价值进行预测,选取价值最大的呼出量作为当前动作。4.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,将ε

Greedy方法产生的呼出量a输入到步骤1)中所构建的虚拟外呼环境中,使外呼环境呼出a,给出即时奖励r
t
,外呼环境从s
t
状态转移到s
t+1
状态,将状态转移元组(s
t
,a
t
,r
t
,s
t+1
)存储到记忆M中。5.根据权利要求4所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,使用深度强化学习方法对不同状态下...

【专利技术属性】
技术研发人员:曹斌郑海秋陈德胜李甜甜范菁
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1