一种语音情感识别方法技术

技术编号：30098013 阅读：10 留言：0更新日期：2021-09-18 09:02

本发明专利技术涉及一种语音情感识别方法，通过首先对于输入的音频信号进行片段化操作，然后通过音频特征提取方法提取能够表达情感信息的特征，然后使用函数对每种特征进行计算初步拼接融合，融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足，多种表达情绪特征再融合的方法，可以从不同的角度、层次获取语音情感信息，对语音情感信息进行更加全面的描述，这样不但使系统得到更高的识别率，同时提高了系统鲁棒性；音频信号片段化识别可以更加精准的掌握情绪变化，避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。绪变动的问题。绪变动的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音情感识别方法

[0001]本专利技术属于信号处理与模式识别
，具体涉及一种语音情感识别方法。

技术介绍

[0002]随着深度学习在人工智能领域的广泛应用，用于扮演客服角色的人工交互智能机器人层出不穷，人们开始关注是否让机器人感知情感。众所周知，人的情绪是不断变化的，所以为了使客服机器人能够提供舒适的交互环境，消除机器和人之间的障碍给客户提供更好的服务，让智能机器人了解客户的情绪变化是很有必要的，而这个问题的解决方法便是情感识别(EmotionRecognition)。人的情绪变化可以引起表情、行为、体温、心率、声音、语言、器官、神经系统等方方面面的变化，这些都可以作为人类情感识别研究的监测信息。但是唯独声音的情绪变化最难隐藏也最容易被察觉，语音情感识别对于和谐的人机交互的促进意义重大。
[0003]语音中的情绪通过语音参数进行表示，这些参数便是用于情绪识别的情绪特征。随着国内外学者的持续的研究，目前情绪特征的提取分为以下几种：韵律特征、谱特征以及音质特征。韵律特征包括基音频率特征、共振峰特征和能量特征等；目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)；而长时平均频谱、谐波噪声比和频谱中心矩等参数则属于音质特征范畴。近几年，使用深度学习进行情绪特征提取的方法也大量涌现包括：1、提取音频的梅尔频率倒谱系数特征作为卷积神经网络的输入，利用卷积神经网络进一步去提取特征；2、直接使用深度神经网络从语音的频谱图中提取特征。提取的特征最后通过分类器进行判别属于那种情绪，常...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括：获取包含对话录音内容的音频文件构建语音情感数据库，并基于预设情感类别对所述音频文件进行分类存储；基于预设分割参数对所述音频文件进行切片形成语音片段；基于预设特征描述对所述语音片段进行特征提取；对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征；使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测；使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。2.根据权利要求1所述的语音情感识别方法，其特征在于，所述预设情感类别包括四个情感类别，分别是激动、积极、消极和中性。3.根据权利要求1所述的语音情感识别方法，其特征在于，所述音频文件为音频格式为单声道、采样率为8000Hz的wav文件。4.根据权利要求1所述的语音情感识别方法，其特征在于，所述语音片段的长度由所述预设分割参数的大小决定，其中最小粒度为1s，所述语音文件的最后剩余部分不够参数规定长度时，剩余部分独自成为一个片段。5.根据权利要求1所述的语音情感识别方法，其特征在于，所述基于预设特征描述对所述语音片段进行特征提取包括：五种不同用来表征情绪的特征具体包括：信号帧均方根能量、12阶梅尔频率倒谱系数、时间信号的过零率、谐波噪声比和从倒谱计算的基频。6....

【专利技术属性】
技术研发人员：刘远庆，张玉腾，初广辉，
申请(专利权)人：青岛洞听智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人