基于强化学习的智能回访方法、装置、设备及存储介质制造方法及图纸

技术编号:24353540 阅读:12 留言:0更新日期:2020-06-03 02:05
本发明专利技术公开了一种基于强化学习的智能回访方法,包括:获取客户画像,所述客户画像中包含有多种用于标识客户的特征标签;根据选定的所述客户画像的特征标签,确定待回访的目标客户;读取所述目标客户的相关信息并与所述目标客户建立通话连接;将所述目标客户的相关信息输入预置回访模型;通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。本发明专利技术还公开了一种基于强化学习的智能回访装置、设备及计算机可读存储介质。本发明专利技术实现了对回访的客户的对话交流,并且回答准确及时,有效提升了回访效果,同时也降低了客户流失率。

Intelligent return visit method, device, equipment and storage medium based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的智能回访方法、装置、设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于强化学习的智能回访方法、装置、设备及存储介质。
技术介绍
通常,为提升服务质量,企业通常会通过电话方式对客户进行回访,从而了解客户感受、改进自身服务。传统的回访系统主要依靠人工完成,在新经济环境下,人力成本增长,企业客服的成本也水涨船高。此外,随着互联网技术的发展,客服人员要面对更为碎片化、多元化的客户服务,除了接打电话,还需回复来自在线客服或是微信公众号的客户问题,流程比较繁琐,很难保障反馈时效,进而导致目前企业对客户的回访效果难以保证。
技术实现思路
本专利技术的主要目的在于提供一种基于强化学习的智能回访方法、装置、设备及存储介质,旨在解决如何通过机器方式实现智能化回访的技术问题。为实现上述目的,本专利技术提供一种基于强化学习的智能回访方法,所述基于强化学习的智能回访方法包括以下步骤:获取客户画像,所述客户画像中包含有多种用于标识客户的特征标签;根据选定的所述客户画像的特征标签,确定待回访的目标客户;读取所述目标客户的相关信息并与所述目标客户建立通话连接;将所述目标客户的相关信息输入预置回访模型;通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。可选地,在所述获取客户画像的步骤之前,还包括:读取具有统一字段格式的客户信息数据;将各字段信息依次串联,以形成客户信息链,其中,将客户唯一身份标识字段作为所述客户信息链的主键;基于预置回访场景对应的特征维度,将所述客户信息链中字段信息按不同特征维度进行标签化归类,输出各特征维度对应的标签集;基于预置的标签量化映射关系,对所有标签分别进行量化赋值,得到各特征维度对应的特征集合;基于各特征维度对应的特征集合,绘制各特征维度对应的特征标签画像并作为客户画像输出。可选地,在所述获取客户画像的步骤之前,还包括:获取多次人工回访对应的历史对话语料,所述历史对话语料中标记有状态集S、动作集A、奖励值集R;以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以对应的下一状态为输出样本,通过机器学习构建状态模型P(s,a);以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以奖励值集R中动作a对应的奖励值为输出样本,通过机器学习构建奖励模型R(s,a);以所述历史对话语料、状态模型P(s,a)、奖励模型R(s,a)为训练样本,采用基于价值函数的Dyna-Q算法构建回访模型。可选地,所述通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出包括:根据所述目标客户的相关信息,通过所述回访模型生成对应的问候语;当与所述目标客户通话连接成功时,将所述问候语进行语音合成后输出;对所述目标客户的答复语音进行语音识别后输入所述回访模型,以供通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。可选地,在所述通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出的步骤之后,还包括:若当前所述回访模型无法答复所述目标客户,则将当前所述目标客户的提问内容以及历史对话记录发送至客服端显示,以供客服人工处理;当所述人工处理为人工接管时,将当前与所述目标客户的通话进程转至客服端;当所述人工处理为人工回复时,接收客服端返回的客服答复内容并进行语音合成后输出。进一步地,为实现上述目的,本专利技术还提供一种基于强化学习的智能回访装置,所述基于强化学习的智能回访装置包括:获取模块,用于获取客户画像,所述客户画像中包含有多种用于标识客户的特征标签;确定模块,用于根据选定的所述客户画像的特征标签,确定待回访的目标客户;读取模块,用于读取所述目标客户的相关信息并与所述目标客户建立通话连接;输入模块,用于将所述目标客户的相关信息输入预置回访模型;对话回复模块,用于通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。可选地,所述基于强化学习的智能回访装置还包括:客户信息处理模块,用于读取具有统一字段格式的客户信息数据;将各字段信息依次串联,以形成客户信息链,其中,将客户唯一身份标识字段作为所述客户信息链的主键;客户画像生成模块,用于基于预置回访场景对应的特征维度,将所述客户信息链中字段信息按不同特征维度进行标签化归类,输出各特征维度对应的标签集;基于预置的标签量化映射关系,对所有标签分别进行量化赋值,得到各特征维度对应的特征集合;基于各特征维度对应的特征集合,绘制各特征维度对应的特征标签画像并作为客户画像输出。可选地,所述基于强化学习的智能回访装置还包括:语料获取模块,用于获取多次人工回访对应的历史对话语料,所述历史对话语料中标记有状态集S、动作集A、奖励值集R;状态模型构建模块,用于以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以对应的下一状态为输出样本,通过机器学习构建状态模型P(s,a);奖励模型构建模块,用于以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以奖励值集R中动作a对应的奖励值为输出样本,通过机器学习构建奖励模型R(s,a);回访模型构建模块,用于以所述历史对话语料、状态模型P(s,a)、奖励模型R(s,a)为训练样本,采用基于价值函数的Dyna-Q算法构建回访模型。可选地,所述对话回复模块包括:问候语生成单元,用于根据所述目标客户的相关信息,通过所述回访模型生成对应的问候语;问候语合成单元,用于当与所述目标客户通话连接成功时,将所述问候语进行语音合成后输出;对话回复单元,用于对所述目标客户的答复语音进行语音识别后输入所述回访模型,以供通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。可选地,所述基于强化学习的智能回访装置还包括:回访转接模块,用于若当前所述回访模型无法答复所述目标客户,则将当前所述目标客户的提问内容以及历史对话记录发送至客服端显示,以供客服人工处理;当所述人工处理为人工接管时,将当前与所述目标客户的通话进程转至客服端;当所述人工处理为人工回复时,接收客服端返回的客服答复内容并进行语音合成后输出。进一步地,为实现上述目的,本专利技术还提供一种基于强化学习的智能回访设备,所述基于强化学习的智能回访设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于强化学习的智能回访程序,所述基于强化学习的智能回访程序被所述处理器执行时实现如上述任一项所述的基于强化学习的智能回访方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所本文档来自技高网...

【技术保护点】
1.一种基于强化学习的智能回访方法,其特征在于,所述基于强化学习的智能回访方法包括以下步骤:/n获取客户画像,所述客户画像中包含有多种用于标识客户的特征标签;/n根据选定的所述客户画像的特征标签,确定待回访的目标客户;/n读取所述目标客户的相关信息并与所述目标客户建立通话连接;/n将所述目标客户的相关信息输入预置回访模型;/n通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。/n

【技术特征摘要】
1.一种基于强化学习的智能回访方法,其特征在于,所述基于强化学习的智能回访方法包括以下步骤:
获取客户画像,所述客户画像中包含有多种用于标识客户的特征标签;
根据选定的所述客户画像的特征标签,确定待回访的目标客户;
读取所述目标客户的相关信息并与所述目标客户建立通话连接;
将所述目标客户的相关信息输入预置回访模型;
通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。


2.如权利要求1所述的基于强化学习的智能回访方法,其特征在于,在所述获取客户画像的步骤之前,还包括:
读取具有统一字段格式的客户信息数据;
将各字段信息依次串联,以形成客户信息链,其中,将客户唯一身份标识字段作为所述客户信息链的主键;
基于预置回访场景对应的特征维度,将所述客户信息链中字段信息按不同特征维度进行标签化归类,输出各特征维度对应的标签集;
基于预置的标签量化映射关系,对所有标签分别进行量化赋值,得到各特征维度对应的特征集合;
基于各特征维度对应的特征集合,绘制各特征维度对应的特征标签画像并作为客户画像输出。


3.如权利要求1所述的基于强化学习的智能回访方法,其特征在于,在所述获取客户画像的步骤之前,还包括:
获取多次人工回访对应的历史对话语料,所述历史对话语料中标记有状态集S、动作集A、奖励值集R;
以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以对应的下一状态为输出样本,通过机器学习构建状态模型P(s,a);
以状态集S中任一状态s以及动作集A中任一动作a为输入样本,以奖励值集R中动作a对应的奖励值为输出样本,通过机器学习构建奖励模型R(s,a);
以所述历史对话语料、状态模型P(s,a)、奖励模型R(s,a)为训练样本,采用基于价值函数的Dyna-Q算法构建回访模型。


4.如权利要求1所述的基于强化学习的智能回访方法,其特征在于,所述通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出包括:
根据所述目标客户的相关信息,通过所述回访模型生成对应的问候语;
当与所述目标客户通话连接成功时,将所述问候语进行语音合成后输出;
对所述目标客户的答复语音进行语音识别后输入所述回访模型,以供通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出。


5.如权利要求1-4中任一所述的基于强化学习的智能回访方法,其特征在于,在所述通过所述回访模型,生成与所述目标客户进行对话的文字对话内容,并对所述文字对话内容进行语音合成后输出的步骤之后,还包括:
若当前所述回访模型无法答复所述目标客户,则将当前所述目标客户的提问内容以及历史对话记录发送至客服端显示,以供客服人工处理;
当所述人工处理为...

【专利技术属性】
技术研发人员:庞有振
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1