一种金融对话场景的语音情绪识别方法、装置及存储介质制造方法及图纸

技术编号:36017232 阅读:58 留言:0更新日期:2022-12-21 10:09
本申请公开了一种金融对话场景的语音情绪识别方法、装置及存储介质。其中,金融对话场景的语音情绪识别方法,包括:获取待进行语音情绪识别的语音数据,其中语音数据为金融对话场景中产生的语音数据;确定语音数据的三维特征,其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征;以及利用预设的语音情绪识别模型,对三维特征进行识别处理,得到与语音数据对应的语音情绪识别结果。语音数据对应的语音情绪识别结果。语音数据对应的语音情绪识别结果。

【技术实现步骤摘要】
一种金融对话场景的语音情绪识别方法、装置及存储介质


[0001]本申请涉及情绪识别
,特别是涉及一种金融对话场景的语音情绪识别方法、装置及存储介质。

技术介绍

[0002]在消费金融场景中,每天都会有非常多的热线、回访、催收等业务在客服呼叫中心中处理。客服代表着公司的形象,提升客服服务质量,对客服服务态度进行有效监管十分重要。此外,对客户在对话中的情绪状态进行实时反馈也是提升服务质量的关键。传统上对客服、客户对话情绪进行反馈的方法通常为人工抽检,费时费力且成本高昂。因此,目前消费金融领域中亟需一种可在语音对话中实时准确地获取客服、客户情绪状态的系统。
[0003]在目前的金融领域客服对话场景中,语音情绪识别由于受到电话信道噪声、方言等因素影响,准确率较低,且识别速度很多也难以满足实时性需求,极大的增加了金融客服场景的情绪识别难度。目前金融领域客服对话场景中的语音情绪识别准确性能和识别实时性能都有待提升。在进行情绪分类时,可将客户及坐席的情绪分为3种情绪(正向、中性、负向),其中正向和中性由于语音情绪的相似性,识别精度一般较低,负向信息虽较为明显,但当客服或客户的负向信息识别有误时,则会带来较大的业务影响。此外,识别速度若较低,也无法满足场景业务需求。
[0004]针对上述的现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本公开的实施例提供了一种金融对话场景的语音情绪识别方法、装置及存储介质,以至少解决现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。
[0006]根据本公开实施例的一个方面,提供了一种金融对话场景的语音情绪识别方法,包括:获取待进行语音情绪识别的语音数据,其中语音数据为金融对话场景中产生的语音数据;确定语音数据的三维特征,其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征;以及利用预设的语音情绪识别模型,对三维特征进行识别处理,得到与语音数据对应的语音情绪识别结果。
[0007]根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
[0008]根据本公开实施例的另一个方面,还提供了一种金融对话场景的语音情绪识别装置,包括:语音数据获取模块,用于获取待进行语音情绪识别的语音数据,其中语音数据为金融对话场景中产生的语音数据;三维特征确定模块,用于确定语音数据的三维特征,其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征;以及语音情绪识别模块,用于利用预设的语音情绪识别模型,对三维特征进行识别处理,得到与语音数据对应的语音
情绪识别结果。
[0009]根据本公开实施例的另一个方面,还提供了一种金融对话场景的语音情绪识别装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待进行语音情绪识别的语音数据,其中语音数据为金融对话场景中产生的语音数据;确定语音数据的三维特征,其中三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征;以及利用预设的语音情绪识别模型,对三维特征进行识别处理,得到与语音数据对应的语音情绪识别结果。
[0010]在本公开实施例中,结合金融客服对话场景中金融语音特征词较多的特点,将Mel

spectrogram特征和一阶差分特征与二阶差分特征相结合,形成三维特征,特征覆盖能力增强,有利于预先训练好的语音情绪识别模型(深度学习分类网络)进行准确分类。并且,本申请针对金融客服场景下短时对话特点,引入计算机视觉领域处理小目标检测时使用的金字塔特征思想,对语音情绪识别模型中的特征映射网络进行金字塔特征模块设计,从而得到ResNet

FPN网络,可有效提升金融客服对话场景下短时音频的特征表示能力,从而提升金融对话场景下的语音情绪识别准确性能与模型识别效率。该ResNet

FPN网络由于以ResNet网络为基础模型,使得其参数量小,特征映射能力相对较强。参数量小使得特征处理速度变快,对网络结构的改进使得网络所具有的特征映射能力提升,对后续语音情绪特征表示能力以及语音情绪准确率提升起到关键作用。此外,在ResNet

FPN网络后接入双向BiGRU网络,对时序信息进行编码处理,有效结合语音情绪时序信息的同时,还有效降低了网络参数量,提升整体网络识别效率。从而,大大提高了金融对话场景下的语音情绪识别准确性和有效提升了语音情绪识别效率。进而解决了现有技术中存在的金融对话场景中的语音情绪识别准确性低以及识别效率低的技术问题。
附图说明
[0011]此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
[0012]图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
[0013]图2是根据本公开实施例1的第一个方面所述的金融对话场景的语音情绪识别方法的流程示意图;
[0014]图3是根据本公开实施例1所述的语音情绪识别模块的网络结构示意图;
[0015]图4是根据本公开实施例2所述的金融对话场景的语音情绪识别装置的示意图;以及
[0016]图5是根据本公开实施例3所述的金融对话场景的语音情绪识别装置的示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
[0018]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0019]首先,在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
[0020]术语1:Mel

spectrogram(梅尔频谱图),一种在语音情绪识别,语音识别,声纹识别,语音合成中广泛使用的特征。首先对对音频信号预加重、分帧和加窗,随后对每帧信号进行短时傅立叶变换STFT,得到短时幅度谱,最后短时幅度谱通过Mel滤波器组得到梅尔频谱图。
...

【技术保护点】

【技术特征摘要】
1.一种金融对话场景的语音情绪识别方法,其特征在于,包括:获取待进行语音情绪识别的语音数据,其中所述语音数据为金融对话场景中产生的语音数据;确定所述语音数据的三维特征,其中所述三维特征包括梅尔频谱图特征、一阶差分特征和二阶差分特征;以及利用预设的语音情绪识别模型,对所述三维特征进行识别处理,得到与所述语音数据对应的语音情绪识别结果。2.根据权利要求1所述的方法,其特征在于,所述语音情绪识别模型包括特征映射网络、编码网络、注意力网络和分类器,并且利用预设的语音情绪识别模型,对所述三维特征进行识别处理,得到与所述语音数据对应的语音情绪识别结果的操作,包括:利用所述特征映射网络,确定与所述三维特征对应的语音情绪特征向量;将所述语音情绪特征向量送入所述编码网络,得到语音情绪特征向量序列;利用所述注意力网络,对所述语音情绪特征向量序列进行序列对齐;以及将序列对齐后的所述语音情绪特征向量序列送入所述分类器,输出与所述语音数据对应的语音情绪识别结果。3.根据权利要求2所述的方法,其特征在于,所述特征映射网络为由多层级残差块组成的特征金字塔网络,并且利用所述特征映射网络,确定与所述三维特征对应的语音情绪特征向量的操作,包括:将所述三维特征输入所述特征金字塔网络,提取多层级特征;以及根据所述多层级特征,生成所述语音情绪特征向量。4.根据权利要求3所述的方法,其特征在于,还包括通过以下步骤设计所述特征映射网络:在ResNet网络的基础上,设计多个残差块;以及基于金字塔特征思想,对设计有所述多个残差块的所述ResNet网络中的特征网络进行金字塔特征模块设计,从而得到所述特征映射网络。5.根据权利要求1所述的方法,其特征在于,确定所述语音数据的三维特征的操作之前,包括:对所述语音数据进行声道分离,确定所述语音数据中的客服语音数据和用户语音数据;并且确定所述语音数据的三维特征的操作,包括:确定所述客服语音数据的三维特征和所述用户语音数据的三维特征。6.根据权利要求1所述的方法,其特征在于,还包括通过以下步骤训练所述语音情绪识别模型:获取已标注情绪的金融对话场景下产生的录音数据,并基于...

【专利技术属性】
技术研发人员:孟庆林蒋宁吴海英王洪斌刘敏陈燕丽
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1