当前位置: 首页 > 专利查询>天津大学专利>正文

一种深度堆叠残差网络的语音分离方法技术

技术编号:21852485 阅读:59 留言:0更新日期:2019-08-14 00:47
一种深度堆叠残差网络的语音分离方法,包括:语音信号数据集的制作;语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;深度堆叠残差网络的搭建;学习标签的制作;损失函数的制作;深度堆叠残差网络模型的训练。本发明专利技术分离出来的语音可以得到更高的语音质量和可懂度,尤其在低信噪比的声学的环境下。本发明专利技术在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型,而且模型的泛化能力特别强,对于未匹配的噪声环境也能有很好的性能表现。

A Speech Separation Method for Deep Stacked Residual Networks

【技术实现步骤摘要】
一种深度堆叠残差网络的语音分离方法
本专利技术涉及一种语音分离方法。特别是涉及一种深度堆叠残差网络的语音分离方法。
技术介绍
在现实生活中,人们所听到的声音几乎都是多种声音的组合体。语音信号往往会被各种噪声信号所干扰。语音分离技术旨在从被干扰的信号中分离出人们感兴趣的目标信号,从而提升语音的质量和可懂度。人耳听觉系统可以自动识别目标信号,即使在鸡尾酒会这种嘈杂的环境下,人耳也能轻易地识别出其中一个人的说话内容。所以语音分离通常被称为“鸡尾酒会问题”,这个术语是Cherry于1953年在他的论文中提出来的。采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。根据干扰的不同,语音分离任务可以分为三类:当干扰为噪声信号时,可以称为“语音增强”(SpeechEnhancement);当干扰为其他说话人时,可以称为“多说话人分离”(SpeakerSeparation);当干扰为目标说话人自己声音的反射波时,可以称为“解混响”(De-reverberation),由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰本文档来自技高网...

【技术保护点】
1.一种深度堆叠残差网络的语音分离方法,其特征在于,包括如下步骤:1)语音信号数据集的制作;2)语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱;3):深度堆叠残差网络的搭建深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块(a)组成,所述的第一全连接通道是由3个第一全连接残差模块(b)组成,所述第...

【技术特征摘要】
1.一种深度堆叠残差网络的语音分离方法,其特征在于,包括如下步骤:1)语音信号数据集的制作;2)语音信号的特征提取,包括分别提取语音信号每一帧的:梅尔倒谱系数、AmplitudeModulationSpectrogram、Gammatone特征、RelativeSpectralTransform-PerceptualLinearPrediction和短时傅里叶变换幅度谱;3):深度堆叠残差网络的搭建深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成,其中,所述的卷积通道是由7个卷积残差模块(a)组成,所述的第一全连接通道是由3个第一全连接残差模块(b)组成,所述第二全连接通道是由3个第二全连接残差模块(c)组成,所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道;4)学习标签的制作采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标:其中S(m,f)2和N(m,f)2分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量;5)损失函数的制作所述的损失函数的制作采用如下的损失函数cost的表达式:其中L2(w)表示深度堆叠残差网络最后一层权值的二范数,表示深度堆叠残差网络的预测值,yn表示学习目标的真实值;6)深度堆叠残差网络模型的训练深度堆叠残差网络的输入分为两部分,输入的一部分为特征集,包含梅尔倒谱系数、AmplitudeModulationSpectrogram、Gammatone特征和RelativeSpectralTransform-PerceptualLinearPrediction四种特征;输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。2.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤1)是从TIMIT纯净语音库随机抽取1500段语音,每个语音都来自不同的语音文件,将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合,得到语音信号的数据集。3.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取梅尔倒谱系数,是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换,得到语音信号的功率谱,所述的将功率谱转换到梅尔域,再经过对数运算和离散傅里叶变换,得到31维的梅尔倒谱系数。4.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法,其特征在于,步骤2)所述的提取AmplitudeModulationSpectrogram,是通过全波整流提取语音信号的包络,对所述的包络进行四分之一抽样,对...

【专利技术属性】
技术研发人员:张涛朱诚诚
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1