一种语音情感识别方法技术

技术编号:30098013 阅读:10 留言:0更新日期:2021-09-18 09:02
本发明专利技术涉及一种语音情感识别方法,通过首先对于输入的音频信号进行片段化操作,然后通过音频特征提取方法提取能够表达情感信息的特征,然后使用函数对每种特征进行计算初步拼接融合,融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足,多种表达情绪特征再融合的方法,可以从不同的角度、层次获取语音情感信息,对语音情感信息进行更加全面的描述,这样不但使系统得到更高的识别率,同时提高了系统鲁棒性;音频信号片段化识别可以更加精准的掌握情绪变化,避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。绪变动的问题。绪变动的问题。

【技术实现步骤摘要】
一种语音情感识别方法


[0001]本专利技术属于信号处理与模式识别
,具体涉及一种语音情感识别方法。

技术介绍

[0002]随着深度学习在人工智能领域的广泛应用,用于扮演客服角色的人工交互智能机器人层出不穷,人们开始关注是否让机器人感知情感。众所周知,人的情绪是不断变化的,所以为了使客服机器人能够提供舒适的交互环境,消除机器和人之间的障碍给客户提供更好的服务,让智能机器人了解客户的情绪变化是很有必要的,而这个问题的解决方法便是情感识别(EmotionRecognition)。人的情绪变化可以引起表情、行为、体温、心率、声音、语言、器官、神经系统等方方面面的变化,这些都可以作为人类情感识别研究的监测信息。但是唯独声音的情绪变化最难隐藏也最容易被察觉,语音情感识别对于和谐的人机交互的促进意义重大。
[0003]语音中的情绪通过语音参数进行表示,这些参数便是用于情绪识别的情绪特征。随着国内外学者的持续的研究,目前情绪特征的提取分为以下几种:韵律特征、谱特征以及音质特征。韵律特征包括基音频率特征、共振峰特征和能量特征等;目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC);而长时平均频谱、谐波噪声比和频谱中心矩等参数则属于音质特征范畴。近几年,使用深度学习进行情绪特征提取的方法也大量涌现包括:1、提取音频的梅尔频率倒谱系数特征作为卷积神经网络的输入,利用卷积神经网络进一步去提取特征;2、直接使用深度神经网络从语音的频谱图中提取特征。提取的特征最后通过分类器进行判别属于那种情绪,常用的分类器有支持向量机(SVM)、随机森林等。
[0004]虽然现在单特征的情绪识别已经很成熟,但是由于本身特点的限制,很难具有通用性,无法获得较高的识别率,并且很容易忽略条语音中可能存在情绪变化,最终的结果也只是一个相对模糊的结果,导致结果不够精确。

技术实现思路

[0005]为了解决现有技术存在的识别率低、准确性低的问题,本专利技术提供了一种语音情感识别方法,其具有准确率高、识别率高等特点。
[0006]根据本专利技术的具体实施方式的一种语音情感识别方法,包括:
[0007]获取包含对话录音内容的音频文件构建语音情感数据库,并基于预设情感类别对所述音频文件进行分类存储;
[0008]基于预设分割参数对所述音频文件进行切片形成语音片段;
[0009]基于预设特征描述对所述语音片段进行特征提取;
[0010]对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征;
[0011]使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测;
[0012]使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。
[0013]进一步地,所述预设情感类别包括四个情感类别,分别是激动、积极、消极和中性。
[0014]进一步地,所述音频文件为音频格式为单声道、采样率为8000Hz的wav文件。
[0015]进一步地,所述语音片段的长度由所述预设分割参数的大小决定,其中最小粒度为1s,所述语音文件的最后剩余部分不够参数规定长度时,剩余部分独自成为一个片段。
[0016]进一步地,所述基于预设特征描述对所述语音片段进行特征提取包括:
[0017]五种不同用来表征情绪的特征具体包括:信号帧均方根能量、12阶梅尔频率倒谱系数、时间信号的过零率、谐波噪声比和从倒谱计算的基频。
[0018]进一步地,所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征包括:应用12个函数进行特征的拼接融合,12个函数分别用于获得平均值、标准偏差、峰度、偏度、最小值、最大值、相对位置、范围、轮廓线性逼近的斜率、轮廓线性逼近的偏移量、线性近似值和实际轮廓的差值,最终经过一阶差分得到总特征向量包含384个属性的初步融合特征。
[0019]进一步地,所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征还包括:
[0020]对所述初步融合特征进行进行标准化,减去平均数后除以标准差。
[0021]进一步地,所述使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测包括:
[0022]所述预设卷积神经网络模型包括两层一维卷积,其中卷积核数和卷积的大小分别设置为64和5,每层卷积后带有归一化层和dropout层,最后一层为softmax层。
[0023]进一步地,使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别包括:
[0024]对目标语音文件的语音片段进行识别时得到相应的预测标签和对应每个标签的置信度得分,并进行相应的分析合并。
[0025]本专利技术的有益效果为:通过首先对于输入的音频信号进行片段化操作,然后通过音频特征提取方法提取能够表达情感信息的特征,然后使用函数对每种特征进行计算初步拼接融合,融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足,多种表达情绪特征再融合的方法,可以从不同的角度、层次获取语音情感信息,对语音情感信息进行更加全面的描述,这样不但使系统得到更高的识别率,同时提高了系统鲁棒性;音频信号片段化识别可以更加精准的掌握情绪变化,避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1是根据一示例性实施例提供的语音情感识别方法的流程图;
[0028]图2是根据一示例性实施例提供的语音情感识别方法的另一流程图;
[0029]图3是根据一示例性实施例提供的预设卷积神经网络模型的结构图。
具体实施方式
[0030]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0031]参照图1所示本专利技术的实施例提供了一种语音情感识别方法,具体包括以下步骤:
[0032]101、获取包含对话录音内容的音频文件构建语音情感数据库,并基于预设情感类别对音频文件进行分类存储;
[0033]可通过获取客服与客户的对话录音构建语音情感数据库,情感数据库包括多种情感类别,每种情感类别下收集的语音来自不同的说话人的音频文件。
[0034]102、基于预设分割参数对音频文件进行切片形成语音片段;
[0035]语音片段化即将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:获取包含对话录音内容的音频文件构建语音情感数据库,并基于预设情感类别对所述音频文件进行分类存储;基于预设分割参数对所述音频文件进行切片形成语音片段;基于预设特征描述对所述语音片段进行特征提取;对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征;使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测;使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述预设情感类别包括四个情感类别,分别是激动、积极、消极和中性。3.根据权利要求1所述的语音情感识别方法,其特征在于,所述音频文件为音频格式为单声道、采样率为8000Hz的wav文件。4.根据权利要求1所述的语音情感识别方法,其特征在于,所述语音片段的长度由所述预设分割参数的大小决定,其中最小粒度为1s,所述语音文件的最后剩余部分不够参数规定长度时,剩余部分独自成为一个片段。5.根据权利要求1所述的语音情感识别方法,其特征在于,所述基于预设特征描述对所述语音片段进行特征提取包括:五种不同用来表征情绪的特征具体包括:信号帧均方根能量、12阶梅尔频率倒谱系数、时间信号的过零率、谐波噪声比和从倒谱计算的基频。6....

【专利技术属性】
技术研发人员:刘远庆张玉腾初广辉
申请(专利权)人:青岛洞听智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1