基于循环神经网络的语音增强模型计算量压缩方法技术

技术编号：35448586 阅读：36 留言：0更新日期：2022-11-03 12:02

本发明专利技术公开了一种基于循环神经网络的语音增强模型计算量压缩方法。该方法包括以下步骤：(1)使用清晰语音数据和噪声数据构造用于训练的含噪语音数据；(2)构建包含至少一个循环神经网络模块的深度神经网络作为语音增强模型；(3)在循环神经网络模块中添加隐状态跳跃结构，并向训练误差函数中添加隐状态跳跃频率的正则化项；(4)使用含噪语音训练数据集训练语音增强模型；(5)在增强阶段使用自适应跳跃或是指定跳跃频率的方式实现循环神经网络的隐状态跳跃更新，实现计算量压缩。本发明专利技术的方法能够使用在多种基于深度学习的语音增强算法中，具有可以在推断时动态调节计算量的能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
基于循环神经网络的语音增强模型计算量压缩方法

[0001]本专利技术属于语音增强的领域，具体涉及一种基于循环神经网络隐状态跳跃更新的语音增强模型计算量压缩方法。

技术介绍

[0002]使用传声器在真实环境中采集到说话人的语音信号时，会同时采集到各种干扰信号，它们可能是背景噪声、房间混响等。这些噪声干扰在信噪比较低时会降低语音的质量，并且使语音识别准确率严重下降。从噪声干扰中提取目标语音的技术称为语音增强技术。
[0003]最近，多种基于深度学习的模型被用于语音增强中。包括卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制(Attention)等模型均成功运用在语音增强领域，并相对于传统的谱减法等算法(Boll,S.F.(1979)Suppression of acoustic noise in speech using spectral subtraction,IEEE Transactions on Acoustics,Speech and Signal Processing,27,113
–
120.)具有显著的性能优势。一般而言，循环神经网络适合实时处理，而注意力机制更擅长对上下文信息建模。相对于循环神经网络和注意力机制，卷积神经网络使用权重共享机制有着更少的可训练参数。中国专利CN112927707A就使用了一种基于循环神经网络和注意力机制的深度学习模型进行语音增强。然而，为了达到良好性能，这些基于神经网络的语音增强算法具有数十亿的浮点计算需求。对有限计算资源和高实时应用场景，

【技术保护点】

【技术特征摘要】
1.基于循环神经网络的语音增强模型计算量压缩方法，其特征在于，包括以下步骤：步骤1，使用清晰语音数据和噪声数据构造用于训练的含噪语音数据；步骤2，构建包含至少一个循环神经网络模块的深度神经网络作为语音增强模型；步骤3，向所述循环神经网络模块中添加隐状态跳跃结构，并向训练误差函数中添加隐状态跳跃频率的正则化项；步骤4，以步骤3得到的训练误差函数为目标，使用步骤1的含噪语音数据训练所述深度神经网络；步骤5，向完成训练的深度神经网络输入待增强语音的复数时频谱，使用自适应跳跃或是指定跳跃频率的方式实现循环神经网络模块的隐状态跳跃更新，以实现语音增强模型的计算量压缩。2.根据权利要求1所述的基于循环神经网络的语音增强模型计算量压缩方法，其特征在于，所述步骤3中，所述隐状态跳跃结构的具体结构如下：向循环神经网络模块添加一个全连接层，用于估计隐状态更新概率；全连接层以循环神经网络上一时刻的隐状态s
t
‑1为输入，以t时刻的微分跳跃概率Δp
t
为输出，表示为：Δp
t
＝σ(Ws
t
‑1+b)其中W和b分别表示权重矩阵和偏置向量，σ(
·
)表示sigmoid函数；微分跳跃概率Δp
t
将被累计在t时刻的跳跃概率p
t
上，对累计跳跃概率p
t
通过四舍五入函数得到二值门g
t
，如果g
t
为1则在t时刻使用循环神经网络更新的隐状态输出；如果g
t
为0则使用上一时刻的隐状态s
t
‑1作为输出，计算过程表示为：其中s
t
表示t时刻循环神经网络模块最终的隐状态输出，p
t
的更新公式为：p
t+1
＝g
t
Δp
t
+(1
‑
g
t
)(p
t
+min(Δp
t
,1
‑
p
t
))其中p
t+1
表示t+1时刻的累计跳跃概率，mi...

【专利技术属性】
技术研发人员：乐笑怀，卢晶，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人