基于人工智能的语音情感识别方法、装置、设备及介质制造方法及图纸

技术编号：39032296 阅读：9 留言：0更新日期：2023-10-10 11:45

本发明专利技术适用于金融科技领域，尤其涉及一种基于人工智能的语音情感识别方法、装置、设备及介质。本发明专利技术实施例得到待识别文本的文本向量并输入至多尺度注意力模型得到文本输出特征，得到待识别音频的音频频谱并输入至多尺度注意力模型得到音频输出特征，将文本输出特征和音频输出特征融合后，基于全连接层得到语音情感识别结果，通过对文本向量和梅尔频谱进行N次不同尺度的卷积，获得了更丰富的文本特征信息和音频特征信息，并根据注意力机制子模型对不同尺度的卷积结果进行注意力权重计算以及融合，提高了对语音情感信息的表征能力，提高了语音情感识别结果的准确性，在金融领域中提高了解决客户疑问、指导客户交易、提供售后服务的效率和质量。服务的效率和质量。服务的效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的语音情感识别方法、装置、设备及介质

[0001]本专利技术适用于金融科技领域，尤其涉及一种基于人工智能的语音情感识别方法、装置、设备及介质。

技术介绍

[0002]情感智能是人工智能的一个研究方向，随着人工智能的发展，情感智能使用人工智能技术来检测语言和非语言信号，从语音变化到面部表情，可以识别、解读和响应更多人与人交流情感的渠道。从智能家居系统到汽车，从数字营销到零售甚至是金融，情感智能广泛地应用于各个行业。例如，在金融科技领域的客服服务场景中，在能够即时反馈用户满意度的即时情绪识别技术的辅助下，客服可以将情绪识别的实时结果加入到话术推荐模型的考虑范畴内，在解决客户疑问、指导客户交易、提供售后服务等方面具有极高的必要性和实用性，可以有效提升金融领域中的服务效率和服务质量。
[0003]其中，客户情感识别依赖于语音情感识别技术，语音情感识别是预测特定语音片段所属的情感类别的任务，是对话系统和人机交互界面中的重要一环，正确识别说话人的情感信息有助于实现更加智能化人性化的交互系统。
[0004]目前业界所使用的方法大多为基于深度学习的语音情感识别方法，该类方法首先从原始语音音频中提取短时傅里叶变换频谱或梅尔频谱，之后使用卷积神经网络等图像处理常用模型进行特征提取。但这种方法的性能较差，难以学习到音频中较深层次的信息。其常见的改良方法是额外使用语音文本进行多模态分析，但由于模态间特征融合效果和文本特征提取效果较差，导致语音情感的识别准确率较低。
[0005]因此，在金融科技领域的客服服...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的语音情感识别方法，其特征在于，所述语音情感识别方法包括：获取待识别文本，对所述待识别文本进行词嵌入处理，得到文本向量，将所述文本向量输入至训练好的多尺度注意力模型，得到文本输出特征；获取所述待识别文本对应的待识别音频，计算所述待识别音频的梅尔频谱，得到音频频谱，将所述音频频谱输入至训练好的多尺度注意力模型，得到音频输出特征；将所述文本输出特征和所述音频输出特征进行拼接融合，得到拼接特征，将所述文本输出特征、所述音频输出特征和所述拼接特征进行特征融合，得到语音情感置信特征；将所述语音情感置信特征输入至训练好的全连接层，得到语音情感识别结果。2.根据权利要求1所述的语音情感识别方法，其特征在于，所述对所述待识别文本进行词嵌入处理，得到文本向量包括：对所述待识别文本进行独热编码，得到所述待识别文本的文本编码；获取预设的词特征矩阵，将所述文本编码与所述词特征矩阵进行相乘，得到所述待识别文本的文本向量。3.根据权利要求1所述的语音情感识别方法，其特征在于，所述训练好的多尺度注意力模型包括训练好的多尺度卷积子模型、训练好的注意力机制子模型和训练好的多尺度池化子模型，所述训练好的多尺度卷积子模型包括N个不同尺度的卷积层，所述训练好的多尺度池化子模型包括N个池化层；所述将所述文本向量输入至训练好的多尺度注意力模型，得到文本输出特征包括：将所述文本向量输入至训练好的多尺度卷积子模型中进行N次不同尺度的卷积，得到N个文本特征；将N个所述文本特征输入至训练好的注意力机制子模型中，得到N个注意力文本特征；将N个所述注意力文本特征输入至所述训练好的多尺度池化子模型，根据N个所述池化层分别对N个所述注意力文本特征进行池化，得到N个注意力文本池化特征；对N个所述注意力文本池化特征进行特征融合，得到文本输出特征。4.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述音频频谱输入至训练好的多尺度注意力模型，得到音频输出特征包括：将所述音频频谱输入至训练好的多尺度卷积子模型中进行N次不同尺度的卷积，得到N个音频特征；将N个所述音频特征输入至训练好的注意力机制子模型中，得到N个注意力音频特征；将N个所述注意力音频特征输入至所述训练好的多尺度池化子模型，根据N个所述池化层分别对N个所述注意力音频特征进行池化，得到N个注意力音频池化特征；对N个所述注意力音频池化特征进行特征融合，得到音频输出特征。5.根据权利要求1所述的语音情感识别方法，其特征在于，获取样本文本向量和样本音频频谱，以样本文本向量和样本音频频谱作为训练样本，以训练样本的实际情感识别结果为训练标签；所述多尺度注意力模型和所述全连接层的训练过程包括：将所述样本文本向量输入至所述多尺度注意力模型，得到样本文本输出特征；将所述样本音频频谱输入至所述多尺度注意力模型，得到样本音频输出特征；将所述样本文本输出特征和所述样本音频输出特征进行拼接融合，得到样本拼接特
征，将所述样本文本输出特征、所述样本音频输出特征和所述样本拼接特征进行特征融合，得到样本语音情感置信特征；将所述样本语音情感置信特征输入至全连接层，得到...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，赵嘉豪，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人