客服应对策略的获取方法、装置、设备及存储介质制造方法及图纸

技术编号:35000560 阅读:19 留言:0更新日期:2022-09-21 14:50
本发明专利技术涉及人工智能技术领域,公开了一种客服应对策略的获取方法、装置、设备及存储介质,用于提高客服视频对话中应对策略的获取效率。所述客服应对策略的获取方法包括:提取音视频流中的语音信号和多帧连续人脸图像;对多帧连续人脸图像进行唇语发音识别,得到唇语音素识别结果,并对语音信号进行语音识别,得到语音音素识别结果;对唇语音素识别结果和语音音素识别结果进行自然语言转换,得到目标自然语句;通过训练好的语义识别模型,对目标自然语句进行服务意向识别,得到目标意向因子;获取目标意向因子对应的目标应对策略,并将目标应对策略下发至终端。此外,本发明专利技术还涉及区块链技术,目标意向因子可存储于区块链节点中。目标意向因子可存储于区块链节点中。目标意向因子可存储于区块链节点中。

【技术实现步骤摘要】
客服应对策略的获取方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种客服应对策略的获取方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多企业推出了的线上视频对话服务,以解决客户的业务问题,线上视频对话服务能够减少客户的交通成本、缓解门店的服务压力、以及减少人员的近距离接触,较传统的语音或文本对话服务更能保证服务质量,是客服系统中的重要组成部分。
[0003]现有的视频对话客服系统对客服人员的业务水平要求较高,客服人员需在与客户的对话过程中,提炼出客户话语中的服务意向,再通过自行提炼的关键词搜索相关的解决方案发送给客户,从而解决客户的需求,效率低,且关键词的提炼存在局限性,导致搜索结果不够准确,可见,现有的视频对话中存在意向预测效率低、不准确的技术问题。

技术实现思路

[0004]本专利技术提供了一种客服应对策略的获取方法、装置、设备及存储介质,用于提高客服视频对话中应对策略的获取效率。
[0005]本专利技术第一方面提供了一种客服应对策略的获取方法,包括:
[0006]接收客服对话过程中的音视频流,并提取所述音视频流中的语音信号和多帧连续人脸图像;
[0007]对所述多帧连续人脸图像进行唇语发音识别,得到唇语音素识别结果,并对所述语音信号进行语音识别,得到语音音素识别结果;
[0008]对所述唇语音素识别结果和所述语音音素识别结果进行自然语言转换处理,得到目标自然语句;
[0009]通过训练好的语义识别模型,对所述目标自然语句进行服务意向识别,得到目标意向因子;
[0010]获取所述目标意向因子对应的目标应对策略,并将所述目标应对策略下发至终端。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述接收客服对话过程中的音视频流,并提取所述音视频流中的语音信号和多帧连续人脸图像,包括:
[0012]接收客服对话过程中的音视频流,并通过预置解码器对所述音视频流进行解码,得到所述音视频流中的图像保存结构体;
[0013]通过预置指针函数和预置帧率,从所述图像保存结构体中提取多帧连续人脸图像;
[0014]通过预置语音提取脚本,从所述音视频流中提取语音信号。
[0015]可选的,在本专利技术第一方面的第二种实现方式中,所述对所述多帧连续人脸图像
进行唇语发音识别,得到唇语音素识别结果,包括:
[0016]通过预置的关键点检测算法,对所述多帧连续人脸图像进行人脸关键点检测,得到各帧人脸图像对应的人脸关键点信息;
[0017]提取各帧人脸图像对应的人脸关键点信息中的唇部关键点信息,得到各帧人脸图像对应的唇部关键点信息;
[0018]通过预置的唇语识别模型,对各帧人脸图像对应的唇部关键点信息进行发音识别,得到唇语音素识别结果,所述唇语识别模型为包括编码器和解码器的端对端神经网络模型,所述编码器和所述解码器均包括多个循环神经网络。
[0019]可选的,在本专利技术第一方面的第三种实现方式中,所述对所述语音信号进行语音识别,得到语音音素识别结果,包括:
[0020]按照预置分帧时长对所述语音信号进行分割处理,得到多段语音信号片段;
[0021]通过训练好的语音音素识别模型对所述多段语音信号片段分别进行特征提取,得到各语音信号片段对应的语音特征向量;
[0022]通过所述语音音素识别模型计算各语音信号片段对应的语音特征向量的音素状态转化概率,并将音素状态转化概率最大的音素状态对应的音素设置为对应语音特征向量的目标音素,得到语音音素识别结果。
[0023]可选的,在本专利技术第一方面的第四种实现方式中,所述对所述唇语音素识别结果和所述语音音素识别结果进行自然语言转换处理,得到目标自然语句,包括:
[0024]读取预置的自然语言模型,所述自然语言模型包括正向长短期记忆网络和反向长短期记忆网络;
[0025]通过所述正向长短期记忆网络对所述唇语音素识别结果和所述语音音素识别结果进行自然语言预测,得到多个第一自然语言语句和各第一自然语言语句对应的第一概率;
[0026]通过所述反向长短期记忆网络对所述唇语音素识别结果和所述语音音素识别结果进行自然语言预测,得到多个第二自然语言语句和各第二自然语言语句对应的第二概率;
[0027]比较各第一自然语言语句对应的第一概率和各第二自然语言语句对应的第二概率的大小,得到多个第一自然语言语句和多个第二自然语言语句中概率最大的自然语言语句,并将概率最大的目标自然语言语句设置为目标自然语句。
[0028]可选的,在本专利技术第一方面的第五种实现方式中,所述通过训练好的语义识别模型,对所述目标自然语句进行服务意向识别,得到目标意向因子,包括:
[0029]通过训练好的语义识别模型,将所述目标自然语句映射至预置的场景特征空间,得到场景特征向量;
[0030]基于所述语义识别模型,对所述场景特征向量进行场景标签匹配,得到多个语义标签和各语义标签的概率值;
[0031]将概率值大于预置概率值阈值的语义标签设置为所述目标自然语句对应的目标意向因子,所述目标意向因子包括至少一个语义标签。
[0032]可选的,在本专利技术第一方面的第六种实现方式中,所述获取所述目标意向因子对应的目标应对策略,并将所述目标应对策略下发至终端,包括:
[0033]对所述目标意向因子进行解析,得到多个语义关键词;
[0034]从预置应对策略库中搜索各语义关键词对应的应对策略,得到各语义关键词对应的目标应对策略,各语义关键词对应的目标应对策略包括产品推荐策略、情绪安抚策略和解决方案策略中的至少一种;
[0035]将各语义关键词对应的目标应对策略下发至终端,以使得终端按照各语义关键词对应的目标应对策略进行视频对话回复。
[0036]本专利技术第二方面提供了一种客服应对策略的获取装置,包括:
[0037]接收模块,用于接收客服对话过程中的音视频流,并提取所述音视频流中的语音信号和多帧连续人脸图像;
[0038]音素识别模块,用于对所述多帧连续人脸图像进行唇语发音识别,得到唇语音素识别结果,并对所述语音信号进行语音识别,得到语音音素识别结果;
[0039]转换模块,用于对所述唇语音素识别结果和所述语音音素识别结果进行自然语言转换处理,得到目标自然语句;
[0040]意向识别模块,用于通过训练好的语义识别模型,对所述目标自然语句进行服务意向识别,得到目标意向因子;
[0041]获取模块,用于获取所述目标意向因子对应的目标应对策略,并将所述目标应对策略下发至终端。
[0042]可选的,在本专利技术第二方面的第一种实现方式中,所述接收模块具体用于:
[0043]接收客服对话过程中的音视频流,并通过预置解码器对所述音视频流进行解码,得到所述音视频流中的图像保存结构体;
[0044]通过预置指针函数和预置帧率,从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种客服应对策略的获取方法,其特征在于,所述客服应对策略的获取方法包括:接收客服对话过程中的音视频流,并提取所述音视频流中的语音信号和多帧连续人脸图像;对所述多帧连续人脸图像进行唇语发音识别,得到唇语音素识别结果,并对所述语音信号进行语音识别,得到语音音素识别结果;对所述唇语音素识别结果和所述语音音素识别结果进行自然语言转换处理,得到目标自然语句;通过训练好的语义识别模型,对所述目标自然语句进行服务意向识别,得到目标意向因子;获取所述目标意向因子对应的目标应对策略,并将所述目标应对策略下发至终端。2.根据权利要求1所述的客服应对策略的获取方法,其特征在于,所述接收客服对话过程中的音视频流,并提取所述音视频流中的语音信号和多帧连续人脸图像,包括:接收客服对话过程中的音视频流,并通过预置解码器对所述音视频流进行解码,得到所述音视频流中的图像保存结构体;通过预置指针函数和预置帧率,从所述图像保存结构体中提取多帧连续人脸图像;通过预置语音提取脚本,从所述音视频流中提取语音信号。3.根据权利要求1所述的客服应对策略的获取方法,其特征在于,所述对所述多帧连续人脸图像进行唇语发音识别,得到唇语音素识别结果,包括:通过预置的关键点检测算法,对所述多帧连续人脸图像进行人脸关键点检测,得到各帧人脸图像对应的人脸关键点信息;提取各帧人脸图像对应的人脸关键点信息中的唇部关键点信息,得到各帧人脸图像对应的唇部关键点信息;通过预置的唇语识别模型,对各帧人脸图像对应的唇部关键点信息进行发音识别,得到唇语音素识别结果,所述唇语识别模型为包括编码器和解码器的端对端神经网络模型,所述编码器和所述解码器均包括多个循环神经网络。4.根据权利要求1所述的客服应对策略的获取方法,其特征在于,所述对所述语音信号进行语音识别,得到语音音素识别结果,包括:按照预置分帧时长对所述语音信号进行分割处理,得到多段语音信号片段;通过训练好的语音音素识别模型对所述多段语音信号片段分别进行特征提取,得到各语音信号片段对应的语音特征向量;通过所述语音音素识别模型计算各语音信号片段对应的语音特征向量的音素状态转化概率,并将音素状态转化概率最大的音素状态对应的音素设置为对应语音特征向量的目标音素,得到语音音素识别结果。5.根据权利要求1所述的客服应对策略的获取方法,其特征在于,所述对所述唇语音素识别结果和所述语音音素识别结果进行自然语言转换处理,得到目标自然语句,包括:读取预置的自然语言模型,所述自然语言模型包括正向长短期记忆网络和反向长短期记忆网络;通过所述正向长短期记忆网络对所述唇语音素识别结果和所述语音音素识别结果进行自然语言预测,得到多个第一自然语言语句和各第一自然语言语句对应的第一概率;
通过所述反向长短期记忆网络对所述唇语音素识别结果和所述语音...

【专利技术属性】
技术研发人员:刘文龙
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1