基于人工智能的语音情感识别方法、装置、设备及介质制造方法及图纸

技术编号:39032296 阅读:9 留言:0更新日期:2023-10-10 11:45
本发明专利技术适用于金融科技领域,尤其涉及一种基于人工智能的语音情感识别方法、装置、设备及介质。本发明专利技术实施例得到待识别文本的文本向量并输入至多尺度注意力模型得到文本输出特征,得到待识别音频的音频频谱并输入至多尺度注意力模型得到音频输出特征,将文本输出特征和音频输出特征融合后,基于全连接层得到语音情感识别结果,通过对文本向量和梅尔频谱进行N次不同尺度的卷积,获得了更丰富的文本特征信息和音频特征信息,并根据注意力机制子模型对不同尺度的卷积结果进行注意力权重计算以及融合,提高了对语音情感信息的表征能力,提高了语音情感识别结果的准确性,在金融领域中提高了解决客户疑问、指导客户交易、提供售后服务的效率和质量。服务的效率和质量。服务的效率和质量。

【技术实现步骤摘要】
基于人工智能的语音情感识别方法、装置、设备及介质


[0001]本专利技术适用于金融科技领域,尤其涉及一种基于人工智能的语音情感识别方法、装置、设备及介质。

技术介绍

[0002]情感智能是人工智能的一个研究方向,随着人工智能的发展,情感智能使用人工智能技术来检测语言和非语言信号,从语音变化到面部表情,可以识别、解读和响应更多人与人交流情感的渠道。从智能家居系统到汽车,从数字营销到零售甚至是金融,情感智能广泛地应用于各个行业。例如,在金融科技领域的客服服务场景中,在能够即时反馈用户满意度的即时情绪识别技术的辅助下,客服可以将情绪识别的实时结果加入到话术推荐模型的考虑范畴内,在解决客户疑问、指导客户交易、提供售后服务等方面具有极高的必要性和实用性,可以有效提升金融领域中的服务效率和服务质量。
[0003]其中,客户情感识别依赖于语音情感识别技术,语音情感识别是预测特定语音片段所属的情感类别的任务,是对话系统和人机交互界面中的重要一环,正确识别说话人的情感信息有助于实现更加智能化人性化的交互系统。
[0004]目前业界所使用的方法大多为基于深度学习的语音情感识别方法,该类方法首先从原始语音音频中提取短时傅里叶变换频谱或梅尔频谱,之后使用卷积神经网络等图像处理常用模型进行特征提取。但这种方法的性能较差,难以学习到音频中较深层次的信息。其常见的改良方法是额外使用语音文本进行多模态分析,但由于模态间特征融合效果和文本特征提取效果较差,导致语音情感的识别准确率较低。
[0005]因此,在金融科技领域的客服服务场景中,如何提高语音情感识别结果的准确性成为亟待解决的问题。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供了一种基于人工智能的语音情感识别方法、装置、设备及介质,以解决语音情感识别结果的准确性较低的问题。
[0007]第一方面,本专利技术实施例提供一种基于人工智能的语音情感识别方法,所述语音情感识别方法包括:
[0008]获取待识别文本,对所述待识别文本进行词嵌入处理,得到文本向量,将所述文本向量输入至训练好的多尺度注意力模型,得到文本输出特征;
[0009]获取所述待识别文本对应的待识别音频,计算所述待识别音频的梅尔频谱,得到音频频谱,将所述音频频谱输入至训练好的多尺度注意力模型,得到音频输出特征;
[0010]将所述文本输出特征和所述音频输出特征进行拼接融合,得到拼接特征,将所述文本输出特征、所述音频输出特征和所述拼接特征进行特征融合,得到语音情感置信特征;
[0011]将所述语音情感置信特征输入至训练好的全连接层,得到语音情感识别结果。
[0012]第二方面,本专利技术实施例提供一种基于人工智能的语音情感识别装置,所述语音
情感识别装置包括:
[0013]文本特征提取模块,用于获取待识别文本,对所述待识别文本进行词嵌入处理,得到文本向量,将所述文本向量输入至训练好的多尺度注意力模型,得到文本输出特征;
[0014]音频特征提取模块,用于获取所述待识别文本对应的待识别音频,计算所述待识别音频的梅尔频谱,得到音频频谱,将所述音频频谱输入至训练好的多尺度注意力模型,得到音频输出特征;
[0015]特征融合模块,用于将所述文本输出特征和所述音频输出特征进行拼接融合,得到拼接特征,将所述文本输出特征、所述音频输出特征和所述拼接特征进行特征融合,得到语音情感置信特征;
[0016]情感识别模块,用于将所述语音情感置信特征输入至训练好的全连接层,得到语音情感识别结果。
[0017]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语音情感识别方法。
[0018]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音情感识别方法。
[0019]本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例获取待识别文本,对待识别文本进行词嵌入处理,得到文本向量,将文本向量输入至训练好的多尺度注意力模型,得到文本输出特征,并获取待识别文本对应的待识别音频,计算待识别音频的梅尔频谱,得到音频频谱,将音频频谱输入至训练好的多尺度注意力模型,得到音频输出特征,然后将文本输出特征和音频输出特征进行拼接融合,得到拼接特征,将文本输出特征、音频输出特征和拼接特征进行特征融合,得到语音情感置信特征,并将语音情感置信特征输入至训练好的全连接层,得到语音情感识别结果,通过对文本向量和梅尔频谱进行N次不同尺度的卷积,获得了更丰富的文本特征信息和音频特征信息,并根据注意力机制子模型对不同尺度的卷积结果进行注意力权重计算以及融合,有效提高了文本输出特征和音频输出特征中情感信息的表征能力,提高了语音情感识别结果的准确性,在金融领域中可以指导客服将准确的情绪识别结果加入到话术推荐模型的考虑范畴内,在解决客户疑问、指导客户交易、提供售后服务等方面具有极高的必要性和实用性,有效提升了金融领域中的服务效率和服务质量。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术实施例一提供的一种基于人工智能的语音情感识别方法的一应用环境示意图;
[0022]图2是本专利技术实施例一提供的一种基于人工智能的语音情感识别方法的流程示意
图;
[0023]图3是本专利技术实施例一提供的一种训练好的多尺度注意力模型的结构示意图;
[0024]图4是本专利技术实施例二提供的一种基于人工智能的语音情感识别装置的结构示意图;
[0025]图5是本专利技术实施例三提供的一种计算机设备的结构示意图。
具体实施方式
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。
[0027]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0028]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0029]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的语音情感识别方法,其特征在于,所述语音情感识别方法包括:获取待识别文本,对所述待识别文本进行词嵌入处理,得到文本向量,将所述文本向量输入至训练好的多尺度注意力模型,得到文本输出特征;获取所述待识别文本对应的待识别音频,计算所述待识别音频的梅尔频谱,得到音频频谱,将所述音频频谱输入至训练好的多尺度注意力模型,得到音频输出特征;将所述文本输出特征和所述音频输出特征进行拼接融合,得到拼接特征,将所述文本输出特征、所述音频输出特征和所述拼接特征进行特征融合,得到语音情感置信特征;将所述语音情感置信特征输入至训练好的全连接层,得到语音情感识别结果。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述对所述待识别文本进行词嵌入处理,得到文本向量包括:对所述待识别文本进行独热编码,得到所述待识别文本的文本编码;获取预设的词特征矩阵,将所述文本编码与所述词特征矩阵进行相乘,得到所述待识别文本的文本向量。3.根据权利要求1所述的语音情感识别方法,其特征在于,所述训练好的多尺度注意力模型包括训练好的多尺度卷积子模型、训练好的注意力机制子模型和训练好的多尺度池化子模型,所述训练好的多尺度卷积子模型包括N个不同尺度的卷积层,所述训练好的多尺度池化子模型包括N个池化层;所述将所述文本向量输入至训练好的多尺度注意力模型,得到文本输出特征包括:将所述文本向量输入至训练好的多尺度卷积子模型中进行N次不同尺度的卷积,得到N个文本特征;将N个所述文本特征输入至训练好的注意力机制子模型中,得到N个注意力文本特征;将N个所述注意力文本特征输入至所述训练好的多尺度池化子模型,根据N个所述池化层分别对N个所述注意力文本特征进行池化,得到N个注意力文本池化特征;对N个所述注意力文本池化特征进行特征融合,得到文本输出特征。4.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述音频频谱输入至训练好的多尺度注意力模型,得到音频输出特征包括:将所述音频频谱输入至训练好的多尺度卷积子模型中进行N次不同尺度的卷积,得到N个音频特征;将N个所述音频特征输入至训练好的注意力机制子模型中,得到N个注意力音频特征;将N个所述注意力音频特征输入至所述训练好的多尺度池化子模型,根据N个所述池化层分别对N个所述注意力音频特征进行池化,得到N个注意力音频池化特征;对N个所述注意力音频池化特征进行特征融合,得到音频输出特征。5.根据权利要求1所述的语音情感识别方法,其特征在于,获取样本文本向量和样本音频频谱,以样本文本向量和样本音频频谱作为训练样本,以训练样本的实际情感识别结果为训练标签;所述多尺度注意力模型和所述全连接层的训练过程包括:将所述样本文本向量输入至所述多尺度注意力模型,得到样本文本输出特征;将所述样本音频频谱输入至所述多尺度注意力模型,得到样本音频输出特征;将所述样本文本输出特征和所述样本音频输出特征进行拼接融合,得到样本拼接特
征,将所述样本文本输出特征、所述样本音频输出特征和所述样本拼接特征进行特征融合,得到样本语音情感置信特征;将所述样本语音情感置信特征输入至全连接层,得到...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁赵嘉豪
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1