一种金融对话场景的语音情绪识别方法、装置及存储介质制造方法及图纸

技术编号：36017232 阅读：58 留言：0更新日期：2022-12-21 10:09

本申请公开了一种金融对话场景的语音情绪识别方法、装置及存储介质。其中，金融对话场景的语音情绪识别方法，包括：获取待进行语音情绪识别的语音数据，其中语音数据为金融对话场景中产生的语音数据；确定语音数据的三维特征，其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对三维特征进行识别处理，得到与语音数据对应的语音情绪识别结果。语音数据对应的语音情绪识别结果。语音数据对应的语音情绪识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种金融对话场景的语音情绪识别方法、装置及存储介质

[0001]本申请涉及情绪识别
，特别是涉及一种金融对话场景的语音情绪识别方法、装置及存储介质。

技术介绍

[0002]在消费金融场景中，每天都会有非常多的热线、回访、催收等业务在客服呼叫中心中处理。客服代表着公司的形象，提升客服服务质量，对客服服务态度进行有效监管十分重要。此外，对客户在对话中的情绪状态进行实时反馈也是提升服务质量的关键。传统上对客服、客户对话情绪进行反馈的方法通常为人工抽检，费时费力且成本高昂。因此，目前消费金融领域中亟需一种可在语音对话中实时准确地获取客服、客户情绪状态的系统。
[0003]在目前的金融领域客服对话场景中，语音情绪识别由于受到电话信道噪声、方言等因素影响，准确率较低，且识别速度很多也难以满足实时性需求，极大的增加了金融客服场景的情绪识别难度。目前金融领域客服对话场景中的语音情绪识别准确性能和识别实时性能都有待提升。在进行情绪分类时，可将客户及坐席的情绪分为3种情绪(正向、中性、负向)，其中正向和中性由于语音情绪的相似性，识别精度一般较低，负向信息虽较为明显，但当客服或客户的负向信息识别有误时，则会带来较大的业务影响。此外，识别速度若较低，也无法满足场景业务需求。
[0004]针对上述的现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本公开的实施例提供了一种金融对话场景的语音情绪识别方法、装置及存储介质，以至

【技术保护点】

【技术特征摘要】
1.一种金融对话场景的语音情绪识别方法，其特征在于，包括：获取待进行语音情绪识别的语音数据，其中所述语音数据为金融对话场景中产生的语音数据；确定所述语音数据的三维特征，其中所述三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征；以及利用预设的语音情绪识别模型，对所述三维特征进行识别处理，得到与所述语音数据对应的语音情绪识别结果。2.根据权利要求1所述的方法，其特征在于，所述语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器，并且利用预设的语音情绪识别模型，对所述三维特征进行识别处理，得到与所述语音数据对应的语音情绪识别结果的操作，包括：利用所述特征映射网络，确定与所述三维特征对应的语音情绪特征向量；将所述语音情绪特征向量送入所述编码网络，得到语音情绪特征向量序列；利用所述注意力网络，对所述语音情绪特征向量序列进行序列对齐；以及将序列对齐后的所述语音情绪特征向量序列送入所述分类器，输出与所述语音数据对应的语音情绪识别结果。3.根据权利要求2所述的方法，其特征在于，所述特征映射网络为由多层级残差块组成的特征金字塔网络，并且利用所述特征映射网络，确定与所述三维特征对应的语音情绪特征向量的操作，包括：将所述三维特征输入所述特征金字塔网络，提取多层级特征；以及根据所述多层级特征，生成所述语音情绪特征向量。4.根据权利要求3所述的方法，其特征在于，还包括通过以下步骤设计所述特征映射网络：在ResNet网络的基础上，设计多个残差块；以及基于金字塔特征思想，对设计有所述多个残差块的所述ResNet网络中的特征网络进行金字塔特征模块设计，从而得到所述特征映射网络。5.根据权利要求1所述的方法，其特征在于，确定所述语音数据的三维特征的操作之前，包括：对所述语音数据进行声道分离，确定所述语音数据中的客服语音数据和用户语音数据；并且确定所述语音数据的三维特征的操作，包括：确定所述客服语音数据的三维特征和所述用户语音数据的三维特征。6.根据权利要求1所述的方法，其特征在于，还包括通过以下步骤训练所述语音情绪识别模型：获取已标注情绪的金融对话场景下产生的录音数据，并基于...

【专利技术属性】
技术研发人员：孟庆林，蒋宁，吴海英，王洪斌，刘敏，陈燕丽，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人