【技术实现步骤摘要】
一种基于声纹嵌入的低信噪比条件下的语音增强方法
[0001]本专利技术涉及语音增强领域,具体涉及一种基于声纹嵌入的低信噪比条件下的语音增强方法。
技术介绍
[0002]近年来,人工智能技术的热度居高不下,语音增强技术也得到了飞速的发展,各种语音增强技术层出不穷。这些语音增强方案主要分为:传统语音增强方案和基于深度学习的语音增强方案。
[0003]传统语音增强方案主要包括:谱减法、基于统计模型的增强算法和子空间增强算法。谱减法假设噪声为加性噪声,然后从带噪语音的语音谱中减去对噪声谱的估计,最后的到干净语音。维纳滤波算法和最小均方误差算法是基于统计模型增强算法的代表,相对于谱减法,维纳滤波法算法处理后的语音信号中的残留噪声类似白噪声,听觉上让人更加舒适。最小均方误差算法利用语音信号的短时频谱振幅在感知中的重要作用,并利用最小均方误差的短时频谱振幅估计器来增强带噪语音。子空间增强算法主要源自于线性代数理论,其原理是在欧式空间中,纯净信号的分布局限在带走按信号的子空间中。所以只要将带噪信号的向量空间分解到两个子空间就可以完成
【技术保护点】
【技术特征摘要】
1.一种基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,包括以下步骤:步骤1:将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;步骤2:提取中文语音数据集的梅尔倒谱系数;步骤3:构建优化通用高斯混合背景模型;步骤4:根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;步骤5:提取带噪语音数据集的幅度谱和相位谱;步骤6:将干净语音数据集的声纹特征与带噪语音数据集的频谱特征通过拼接生成带噪语音中说话用户的相关频谱特征;步骤7:构建增强神经网络,将第s个说话用户第h段语音第k帧语音信号的相关谱特征输入至增强神经网络,通过增强神经网络预测得到增强后的第s个说话用户第h段语音第k帧语音信号,以干净语音集的频谱作为标签构建增强神经网络的损失函数,通过Adam优化算法进一步优化训练得到优化后增强神经网络;步骤8:将带噪语音数据集中带噪语音经过特征提取之后得到带噪语音的说话用户相关频谱特征,将带噪语音的说话用户相关频谱特征输入到优化后的增强神经网络中得到增强后说话用户相关频谱;将增强后的说话用户相关频谱和步骤5中的相位谱通过傅里叶反变换,进一步进行波形重构得到增强之后的待检测用户语音。2.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,步骤1所述干净中文语音数据集为:CleanData
s,h
s∈{1,2....,S},h∈{1,2....,H}其中,CleanData
s,h
表示第s个说话用户第h段语音,S为说话用户的数量,H为每个说话用户的音频数量;步骤1所述带噪语音数据集为:NoiseData
s,h
s∈{1,2....,S},h∈{1,2....,H}其中,NoiseData
s,h
表示第s个说话用户第h段带噪语音,S为说话用户的数量,H为每个说话用户的音频数量。3.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,所述步骤2具体如下:步骤2.1,将步骤1中的干净中文语音数据集通过高通滤波器滤波,得到预加重之后的干净语音信号;步骤2.2,对经过预加重之后的干净语音信号进行分帧加窗得到中文语音数据集的多帧语音信号;所述中文语音数据集的多帧语音信号为:CleanDataFrame
s,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,K
h,s
}其中,CleanDataFrame
s,h
表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,K
h,s
表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;步骤2.3,对中文语音数据集的每帧语音信号即CleanDataFrame
s,h,k
进行快速傅里叶变换,得到中文语音数据集的每帧语音信号的频谱、中文语音数据集的每帧语音信号能量谱;步骤2.4,将中文语音数据集的每帧语音信号能量谱通过梅尔尺度的三角形滤波器组,进一步经过离散余弦变换得到干净中文语音的梅尔倒谱系数;所述干净中文语音的梅尔倒谱系数为:CleanMFCC
s,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,K
h,s
}其中,CleanMFCC
s,h,k
表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,K
h,s
表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。4.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,所述步骤3具体如下:步骤3.1,随机初始化高斯分量均值向量、方差向量;所述初始化的均值向量的定义为:μ,μ={μ1,...,μ
i
,...,μ
M
};所述初始化的方差向量的定义为:θ,θ={θ1,...,θ
i
,...,θ
M
};其中,M表示混合高斯模型的高斯分量个数,μ
i
表示第i个高斯分量的均值,θ
i
表示第i个高斯分量的方差;步骤3.2,结合均值向量、方差向量构建通用高斯混合背景概率密度模型;通用高斯混合背景概率密度模型如下:其中,λ是高斯混合模型参数集合{λ1,...,λ
i
,...,λ
M
},λ
i
=(w
i
,μ
i
,θ
i
),i∈(1,...,M),w
i
是第i个高斯分量的混合权重分量,g(CleanMFCC
s,h,k
|μ
i
,θ
i
)是第i个高斯分量的概率密度函数;步骤3.3,将通用高斯混合背景概率密度模型作为最大期望算法目标优化模型,进一步通过最大期望算法依次迭代计算均值向量和方差向量,直至p(CleanMFCC
s,h,k
|λ)的期望达到最大值,得到优化均值向量即μ*和优化方向量差即θ*;通过μ*、θ*构建优化后的高斯混合模型的概率密度;所述优化后的高斯混合模型的概率密度为:其中,μ*为优化后的均值向量,μ*={μ*1,...,μ*
i
,...,μ*
M
},θ*为优化后的方差向量,θ*={θ*1,...,θ*
i
,...,θ*
M
},μ*
i
表示第i个优化后高斯分量的均值,θ*
i
表示第i个优化后高斯分量的方差。
5.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,所述步骤4具体如下:步骤4.1,根据干净语音集的梅尔倒谱系数、优化高斯混合背景概率密度模型,计算干净语音数据集的Baum
‑
Welch统计量;所述干净语音数据集的Baum
‑
Welch统计量包括:第s个说话用户第h段语音的权值Baum
‑
Welch统计量、干净语音数据集的均值矢量Baum
‑
Welch统计量、干净语音数据集的一阶中心Baum
‑
Welch统计量;所述第s个说话用户第h段语音的权值Baum
‑
Welch统计量为:Welch统计量为:μ*={μ*1,
…
,μ*
i
,
…
,μ*
M
}θ*={θ*1,...,θ*
i
,...,θ*
M
}w*={w*1,...,w*
i
,...,w*
M
}s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,K
h,s
}其中,CleanMFCC
s,h,k
表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,K
h,s
表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;其中,P*优化后的高斯混合模型的概率密度模型,μ*为优化后的均值向量,θ*为优化后的方差向量,μ*
i
表示第i个优化后高斯分量的均值,θ*
i
表示第i个优化后高斯分量的方差,w*
i
表示优化后第i个高斯分量的混合权重,g(CleanMFCC
s,h,k
|μ*
i
,θ*
i
)是优化后第i个高斯分量的概率密度函数,p(c|CleanMFCC
s,h,k
,p*)表示CleanMFCC
s,h,k<...
【专利技术属性】
技术研发人员:高戈,曾邦,陈怡,杨玉红,尹文兵,王霄,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。