【技术实现步骤摘要】
基于深度强化学习的预测式外呼任务分配方法及外呼系统
[0001]本专利技术属于智能客服领域,尤其涉及一种基于深度强化学习的预测式外呼任务分配策略及外呼系统。
技术介绍
[0002]预测式外呼任务分配策略是一项在外呼环境条件下预测外呼量的技术。外呼是客服通过拨号主动给客户提供服务的方法。传统的外呼中,客服采用手动拨号的方式,在结束一通电话后拨出下一通电话,经过振铃以及被挂断无数次后再次接通下一个电话。而区别于传统的手动外呼,自动外呼系统则省略坐席服务人员手动拨号这一繁琐步骤,直接由系统一次性拨出多个电话,再将接通的电话转接到客服所在的坐席。但无法准确控制外呼量导致出现了较高的呼损率以及坐席服务人员长期空闲造成的时间浪费等问题。预测式外呼技术,即给定当前坐席空闲数量、任务剩余呼出数、等待接入坐席的通话数等相关信息,预测得出适当的外呼量,达到呼损率低且坐席空闲时间少的目的。
[0003]强化学习是一种机器学习方法,其作用方式类似人类自身的学习过程,通过与环境进行动作交互,根据环境的反馈奖励进行学习,进而对不同状态下采取不同动作可能带来的价值进行学习,通过对不同状态下可采取的所有动作的价值进行预测,最终给出当前状态下最佳的动作选择。
[0004]自动外呼系统的核心是外呼量的预测。系统通过预测下一批拨出的电话数,使得坐席结束上一通电话后就有新的客户电话分配、客户刚应答就有坐席空闲接听。一个好的预测式外呼方法不仅提高坐席的工作效率,同时也需要抑制呼损不超过可忍受的范围。目前的预测式外呼技术主要使用设计公式计算控制
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的预测式外呼任务分配方法,其特征在于,包括如下:通过对外呼进行建模,构建用于强化学习的虚拟外呼环境;基于ε
‑
Greedy方法在所构建的虚拟外呼环境中进行半随机呼出,获得环境返回的奖励和状态;采用深度强化学习方法对不同外呼环境状态下的不同外呼量的价值进行学习,训练得到可以对不同呼出量进行价值预测的深度神经网络Q;利用得到的深度神经网络Q对实际呼出状态下不同外呼量进行价值预测,选取价值最高的外呼量进行输出。2.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,依据外呼系统的工作流程以及外呼任务需求,对外呼建模构建用于强化学习的虚拟外呼环境,具体包括如下:1.1)基于外呼系统的工作流程生成一个固定容量的呼叫池、振铃队列、等待队列以及通话队列,确定用于描述外呼环境的状态集合,由状态集合中各状态描述分量构成的向量表示外呼环境的状态St;1.2)规定外呼环境动作集合,呼叫池容量为c,则动作集合为A={0,1,2,3,...,c
‑
1,c};1.3)依据呼损大小以及坐席空闲状态设置动作奖励;1.4)使外呼环境接受随机动作呼出量开始呼出,进入呼出流程,计算实际呼出数,对每通电话生成其拨号时间c_t,筛查振铃队列中振铃结束的电话,判断其是接通还是挂断;根据接通数更新等待队列,对于每个进入等待队列的电话生成其等待时间w_t;计算空闲坐席数,将等待队列中等待电话分配给剩余空闲坐席并生成其通话时间s_t,更新通话队列;呼出流程中计算呼损奖励以及坐席空闲奖励,当所述外呼环境可返回环境状态信息以及奖励,完成环境的一个动作的更新并从当前状态s
t
更迭到下一个状态s
t+1
,则虚拟外呼环境构建成功。3.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,使用ε
‑
Greedy方法进行半随机呼出,具体为:通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A中随机选择一个a作为当前的动作,即呼出量为a;如果产生的随机数不小于ε,则使用深度神经网络Q近似值函数,对当前状态下的不同的呼出量的价值进行预测,选取价值最大的呼出量作为当前动作。4.根据权利要求1所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,将ε
‑
Greedy方法产生的呼出量a输入到步骤1)中所构建的虚拟外呼环境中,使外呼环境呼出a,给出即时奖励r
t
,外呼环境从s
t
状态转移到s
t+1
状态,将状态转移元组(s
t
,a
t
,r
t
,s
t+1
)存储到记忆M中。5.根据权利要求4所述的基于深度强化学习的预测式外呼任务分配方法,其特征在于,使用深度强化学习方法对不同状态下...
【专利技术属性】
技术研发人员:曹斌,郑海秋,陈德胜,李甜甜,范菁,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。