一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法技术

技术编号:27289239 阅读:76 留言:0更新日期:2021-02-06 11:57
本发明专利技术公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括:S1、获取干净语谱图以及加噪语谱图;S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,分别进行两个不同尺度的双边滤波,得到低、高尺度滤波图,低、高尺度滤波图相差再乘以增强系数,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、将细节增强的语谱图输入卷积神经网络模型中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到的细节增强的语谱图输入分类模型,得到语音情感分类结果。本发明专利技术有效实现语音情感的识别。本发明专利技术有效实现语音情感的识别。本发明专利技术有效实现语音情感的识别。

【技术实现步骤摘要】
一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法


[0001]本专利技术属于语音识别领域,主要涉及人机交互领域,具体来说,即一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法。

技术介绍

[0002]将语音情感识别应用于人机交互系统,一方面能够使机器人像人类一样具有“情感”,通过听觉察觉到对方的情感变化,和人类进行更加自然的、智能的交流互动,将人性化、自然化、智能化相融合的交互方式赋予新型人机交互系统。另一方面,基于语音情感的系别系统,能为医疗、机械、教育、服务型提供更新颖的发展思路,将进一步丰富人们的日常生活,成为人类的帮手,高效率的帮助人们解决实际问题,有效提高人们的工作、学习效率,提高人们的生活质量和幸福感。
[0003]语音在实际应用中,往往伴随着各种噪声,而噪声的存在会对语音情感识别造成一系列的影响,使得语音的质量和情感信息下降。因此对语音去噪对情感识别是一个重要的研究方向。
[0004]当前语音情感特征主要包括韵律特征、频域特征、音质特征。语音信号频域和时域中信号间的相关性在语音情感识别中起到了重要作用。但针对语音信号间相关性的研究,往往仅集中在频域或时域中,语谱图是一种语音能量时频分布的可视化表达方式,其横轴代表时间,纵轴代表频率,连通了时频两域,将语谱图的频率点建模为图像的像素点,便可利用图像特征探讨相邻频点间的联系,为研究时频两域相关性提供了一种新的思路。
[0005]原始生成对抗网络(Generative Adversarial Nets,GAN)是由生成器(Generator,G)和判决器(Discriminator,D)组成的训练生成式模型,它将随机噪声和真实图像输入GAN中,通过生成器和判决器不断的对抗学习,从而生成近似真实数据的图像。在对抗训练中,生成器通过不断的迭代学习生成图像,企图“欺骗”判决器;判决器通过不断学习,希望尽可能的“不受欺骗”,判决器和生成器通过不断的对抗训练,寻求最优解。
[0006]双边滤波是一种非线性滤波器,它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样,双边滤波也是采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素的强度,所用的加权平均基于高斯分布。最重要的是,双边滤波的权重不仅考虑了像素的欧氏距离,还考虑了像素范围域中的辐射差异,在计算中心像素的时候同时考虑这两个权重,这样就保证了边缘附近像素值的保存,有利于语谱图纹理细节的增强。

技术实现思路

[0007]针对现有技术中存在的上述问题,本专利技术提供一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,通过将语音信号转换为语谱图,然后使用基于矩阵距离的生成对抗网络MD-CGAN对语谱图去噪,并使用不同尺度的双边滤波增强语谱图的细节信息,最后将增强后的语谱图放入迁移的卷积神经网络中进行情感分类。
[0008]本专利技术采取如下技术方案:
[0009]一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:
[0010]S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;
[0011]S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;
[0012]S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;
[0013]S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
[0014]S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
[0015]作为优选方案,所述步骤S1,包括:
[0016]对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
[0017][0018]其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
[0019]再以对数振幅描述来生成语谱图:
[0020]S(k,t)=20
×
log
10
|X
t
(k)|
[0021]其中,X(k)为t时刻的频谱;
[0022]对语谱图按照情感类别设置相应的情感标签。
[0023]作为优选方案,所述步骤S2,包括:
[0024]对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
[0025][0026]其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,p
data
(x)表示干净语谱图的概率分布;z表示加噪语谱图,p
z
(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
[0027]去噪模型的训练过程,包括以下步骤:
[0028](1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;
[0029](2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;
[0030]基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
[0031]所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
[0032][0033][0034]其中,I
g
表示生成器的输出,即去噪语谱图;I
x
表示干净语谱图,p
G
(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;
[0035](3)返回步骤(1)直到训练达到最优值,得到去噪模型。
[0036]作为优选方案,所述步骤S3中,所述双边滤波的算法如下:
[0037]基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出
[0038][0039]||S
p-S
q
||2=(x
p-x
q
)2+(y
p-y
q
)2[0040]其中,(x
p
,y
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,包括以下步骤:S1、采集语音情感数据集,获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集;S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD-CGAN进行去噪模型的训练,得到去噪模型;S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图;S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。2.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S1,包括:对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;再以对数振幅描述来生成语谱图:S(k,t)=20
×
log
10
|X
t
(k)|其中,X(k)为t时刻的频谱;对语谱图按照情感类别设置相应的情感标签。3.如权利要求2所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,其特征在于,所述步骤S2,包括:对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,p
data
(x)表示干净语谱图的概率分布;z表示加噪语谱图,p
z
(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;去噪模型的训练过程,包括以下步骤:(1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;(2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图
能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;基于矩阵距离的条件生成对抗网络MD-CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:其中,I
g
表示生成器的输出,即去噪语谱图;I
x
表示干净语谱图,p
G
(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;(3)返回步骤(1)直到训练达到最优值,得到去噪模型。4.如权利要求3所述的一种基于语谱图去噪和纹理增强的语音情感识别方法,其特征在于,所述步骤S3中,所述双边滤波的算法如下:基于空间距离...

【专利技术属性】
技术研发人员:应娜李怡菲郭春生杨萌杨鹏方昕郭凡
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1