【技术实现步骤摘要】
一种基于动态门控卷积循环网络的语音增强方法
[0001]本专利技术属于人工智能领域,涉及一种基于神经网络的语音增强方法。
技术介绍
[0002]话音增强的目标是从噪声环境中将目标语音分离出来,在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务,在许多应用中,只有将语音尽可能地与背景干扰和噪声分隔开,后续处理过程才会取得良好的效果。早期的语音增强算法主要以非监督学习算法为主,基于统计信号模型设计算法。但这些算法依赖人工假设的数学模型,往往与实际条件有一定的偏差,因此性能始终有限。近年来,随着硬件计算能力的快速进步和深度学习理论的快速发展,基于深度学习的语音增强方法被大量提出并迅速成为语音增强的主要发展方向。现有深度学习语音增强方法绝大多数以卷积层作为主要网络组成部分,提取语音的局部信息;以循环神经网络(Recurrent Neural Network,RNN)作为辅助模块,提取语音的时间信息。然而,尽管卷积运算由于其简单的结构和强大的特征提取能力而成为神经网络的基本组成单元,但目前一些研究认为常规的卷积存在两个 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态卷积门控卷积循环网络的语音增强方法,该方法包括:步骤1:建立语音增强网络;步骤1.1:构造DDF空间参数输入的语音X有C
i
个通道,其频率方向大小为H,时间方向大小为T,输入表示为X∈R
C
×
H
×
T
;将期望生成的滤波器沿着频率方向的长度设置为K,沿着时间方向的长度设置为L,即期望使用大小为K
×
L的滤波器处理输入特征,则应用一个输入通道为C
i
,输出通道为KL的1
×
1卷积层对其进行处理,得到空间上参数z
(SP)
∈R
KL
×
H
×
W
,即然后对z
(SP)
的每个空间位置上长度为KL
×1×
1的向量进行归一化,即1的向量进行归一化,即其中,E[
·
]和Std[
·
]分别表示取均值和标准差,而α和γ是可学习的参数;最后将沿着通道第一个维度复制C
i
份得到规整后的形式为步骤1.2:构造DDF通道参数首先对X的每个通道取均值得到X
GAP
∈R
C
×1×1,再连续使用两个1
×
1卷积对X
GAP
进行处理,最终得到通道分支参数所述的两个卷积分别表示为和并且σ是取值范围为(0,1)区间内的常数,即:并且σ是取值范围为(0,1)区间内的常数,即:其中,φ表示线性整流激活函数,将z
(CH)
沿着第2个维度复制H次,再沿着第3个维度复制T次得到规整后的形式为步骤1.3:融合空间参数和通道参数将得到的和逐点对应相乘得到再将的第一个维度拆解成大小为C
i
、K和T的三个新的维度得到最终的得到通过步骤1.1~1.2构造的卷积层滤波器,由于该滤波器是根据输入动态生成并被用于与输入信号进行卷积,故而称为动态卷积核,对于输入的每个通道和每个时间、频率位置,都具有对应的大小为K
×
L的滤波器参数;步骤1.4:应用处理输入X,将得到的输出结果记为Y∈R
C
×
H
×
【专利技术属性】
技术研发人员:陈延涛,刘欣悦,董彬虹,唐文岐,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。