一种基于贪婪深度字典学习的单信道语音去混响方法技术

技术编号:22002984 阅读:20 留言:0更新日期:2019-08-31 06:10
本发明专利技术提供的是一种基于贪婪深度字典学习的单信道语音去混响方法。步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。本发明专利技术将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。

A Single Channel Speech Dereverberation Method Based on Greedy Deep Dictionary Learning

【技术实现步骤摘要】
一种基于贪婪深度字典学习的单信道语音去混响方法
本专利技术涉及的是一种单信道去混响方法。
技术介绍
混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。随着互联网发展及智能设备的普及,语音或声音信号的可理解性与可感知性对于人机交互的用户体验变得尤为重要。然而混响严重影响了语音识别的准确率,降低了用户智能交互的体验,同时增加了有听力障碍者对于语音理解的困难度。语音去混响的目的是抑制或移除混响语音中的混响成分,尽可能的实现源信号的恢复。根据系统麦克风的数量分为:单信道语音去混响和多信道语音去混响。其中单信道语音去混响利用接收位置一点的语音信号时频域特性作为先验信息对混响信号进行处理,具有系统相对简单,计算复杂度低以及成本较为低廉等优势。因此,单信道语音去混响问题具有重要的研究价值。传统的单信道语音去混响的方法大多通过先建立语音去混响模型,通过加入不同的约束条件在非适定问题中求出可确定的解,从而获得符合条件的估计信号。尽管在求解估计信号时具有可解释性,但这些方法都存在适用范围不足,实际效果不佳等缺点。基于深度学习的语音去混响方法通过训练大量样本,直接学习混响语音和纯净语音之间的非线性映射关系。虽然能取得很好的去混响结果,但具有数据获得困难和参数冗余的缺点,导致其在实际应用中性能下降。
技术实现思路
本专利技术的目的在于提供一种能够提高单信道去混响效果的基于贪婪深度字典学习的单信道语音去混响方法。本专利技术的目的是这样实现的:步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:1、对单信道语音去混响进行建模,具体描述为:(1)将n时刻的语音信号利用下式进行描述:其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;(2)将环境噪声u(n)去掉简化得:(3)根据单位冲激函数的卷积性质,改为卷积的形式:其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:Y=HX其中Y是混响语音,H是RIR,且有X=AS;(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:其中λ>0是用于控制稀疏性与测量空间的参数;(3)使用ISTA算法进行求解;3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:方法1,将求解目标函数定义为:X=DZ其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;字典学习问题表示为求解目标函数:方法2,采用K-SVD字典学习算法,将求解目标函数定义为:其中zi是矩阵Z中的第i列,||.||0表示zi中非零元素的个数,τ表示稀疏程度,用于控制Z的每一列中所含非零元素的最大个数;4、引入深度语音字典后,进行求解,具体描述为:(1)根据单层字典学习进行求解,在求解过程中利用稀疏编码和字典更新,具体描述如下:1)稀疏编码,运用LARC方法,已知字典D(t-1),在第t次字典学习迭代中稀疏矩阵的每个列向量更新如下表示:其中X(:,n)表示给定的观测矩阵,D(t-1)表示字典矩阵,表示满足稀疏约束条件的稀疏表示矩阵;2)字典更新,根据所获得稀疏表示矩阵Z,从训练信号集X中寻找当次迭代中更适合训练信号的字典D,字典更新如下式表示:3)针对每一个原子||D(:,l)||2=1,残差表示为:式中将DZ分解为L个秩为1的矩阵(d(:,l)z(l:,))之和,Rl代表除第l个原子之外的原子所带来的残差。通过SVD分解找到与Rl最为接近的秩为1的矩阵;4)进行预处理,定义Λl为下式:Λl={i|1≤i≤K,c(l,:)(i)≠0}5)定义M为D×|Λl|的矩阵,其中(Λl(i),i)设置为1,其他设置为0,则:上式代表R(l)保留z(l,:)中非零元素所对应的原子所构成的矩阵,代表z(l,:)只保留非零元素所构成的向量,字典更新如下式表示:6)对进行SVD分解得到下式:7)使用U中的第一列来跟新d(:,l),V的第一列乘以Δ(l,l)来更新相应的系数,完成一个原子的更新;(2)根据深度字典学习进行求解,具体过程如下:1)由下式描述多层字典学习,X=D1*D2*Z其中D2,D2分别是双层神经网络中每层的字典;2)采用逐层训练进行逐层分解,首先训练除第一特征层Z1,字典D1:X=D1*Z1其次对Z1进行分解,求解第二层字典D2、特征Z2:Z1=D2*Z2之后以此类推,得到更深层的语音字典学习;3)基于贪婪深度字典学习的单信道语音去混响模型由此建立。本专利技术将传统的单信道语音去混响方法与深度字典学习相结合,提高单信道去混响的效果,使其具有良好的去混响效果,提高深度网络结构的可推导性。附图说明图1本专利技术的方法流程图。图2单层字典学习的示意图。图3双层学习示意图。图4贪婪的分层学习示意图。具体实施方式下面举例对本专利技术做更详细的描述。如图1所示,本专利技术基于贪婪深度字典学习的单信道语音去混响技术,首先将输入的混沌、纯净语音进行信号预处理,进行特征的提取;其次,对单信道语音去混响问题结合贪婪深度字典学习进行模型的建立,具体描述如下:1、对单信道语音去混响问题进行数学建模。通过混响产生的具体的物理原理,对单信道语音去混响问题进行尽可能的数学建模。混响是指在声学上,除延迟时间达到约50ms以上的反应波称为回声外,其余的反射波产生的效应统称为混响。早期的混响会产生一种声染色现象,它会导致语音信号在频域失真。后期混响的存在会导致语音模糊不清,降低语音可懂度。因此,提出该专利技术能够有效的解决上述问题。具体描述方法如下所示。(1)将n时刻的语音信号利用下式进行描述:其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音。(2)为了对混响问题进行建模分析,将步骤1中(1)过程的环境噪声u(n)去掉简化得:(3)根据单位冲激函数de卷积性质,将步骤1中(2)的公式改写为卷积的形式:其中,h(n)是冲击响应(RoomImpulseResponse,RIR),*是卷积操作符号,δ(n)表示单位冲激函数,h(n)可以表示混响的物理特征,它是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加。h(n)是冲击响应(RoomImpulseResponse,RIR)也可称为房间脉冲响应。房本文档来自技高网...

【技术保护点】
1.一种基于贪婪深度字典学习的单信道语音去混响方法,其特征是:步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。

【技术特征摘要】
1.一种基于贪婪深度字典学习的单信道语音去混响方法,其特征是:步骤一、将输入的混沌、纯净语音进行信号预处理,进行特征的提取;步骤二、结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立;步骤三、将建立好的模型与提取的特征进行模型训练,得到基本系数;步骤四、再次输入混沌、纯净语音信号数据进行测试,经过傅里叶逆变换后,最终得到纯净语音。2.根据权利要求1所述的基于贪婪深度字典学习的单信道语音去混响方法,其特征是所述的结合稀疏和贪婪深度字典学习对单信道语音去混响问题进行模型建立具体包括:第1、对单信道语音去混响进行建模,具体描述为:(1)将n时刻的语音信号利用下式进行描述:其中D是原始语音,nk是k次反射后的延时单元数,ρk是第k次反射时的发射系数,s(n-knk)是第k次反射后的语音信号,u(n)表示周围环境的噪声,x(n)表示混响语音;(2)将环境噪声u(n)去掉简化得:(3)根据单位冲激函数的卷积性质,改为卷积的形式:其中,h(n)是冲击响应,*是卷积操作符号,δ(n)表示单位冲激函数,h(n)反应混响的物理特征、是位于knk并且都衰减ρk倍后的许多冲击函数δ(n)的叠加,房间脉冲响应h(n)和纯净语音s(n)卷积后获得混响语音x(n);第2、将单信道语音去混响模型转化为基于稀疏表示的单信道语音去混响模型,其转化过程如下:(1)通过稀疏表示方法对单信道语音去混响进行建模分析,在忽略环境噪声的情况下,利用下式简单描述语音去混响问题:Y=HX其中Y是混响语音,H是RIR,且有X=AS;(2)根据X=AS,假定纯净语音含有正交基稀疏矩阵表示矩阵A,则单信道语音去混响的稀疏表示为:其中λ>0是用于控制稀疏性与测量空间的参数;(3)使用ISTA算法进行求解;第3、引入深度语音字典,将字典学习问题转化为以下两种表示方法,任选其一:方法1,将求解目标函数定义为:X=DZ其中X是纯净语音,D是语音字典,Z是稀疏表示矩阵;字典学习问题...

【专利技术属性】
技术研发人员:关键孙建国刘加贝袁野尹晗琦田野林尤添王文博
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1