一种基于多尺度上下文的单通道语音增强方法技术

技术编号:21895739 阅读:20 留言:0更新日期:2019-08-17 16:02
一种基于多尺度上下文的单通道语音增强方法,本发明专利技术涉及单通道语音增强方法。本发明专利技术是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明专利技术用于语音增强领域。

A Single Channel Speech Enhancement Method Based on Multi-Scale Context

【技术实现步骤摘要】
一种基于多尺度上下文的单通道语音增强方法
本专利技术涉及单通道语音增强方法,具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。
技术介绍
随着语音信号处理技术的迅猛发展,计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强,就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别,以及关键词识别等语音信号处理技术的前端处理,能够显著提升这些技术对噪声的鲁棒性;另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此,语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号,将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术,单通道技术具有对设备要求低、实用性强的优点。近年来,单通道语音增强被看作频域的有监督学习任务,并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题:(1)频域上的语音增强仅对语音频谱进行增强,而语音信号是一种时域信号,还需要将增强后的频域信号转换到时域,这一转换过程中引入了带有噪声干扰的相位,这样的带噪相位与增强后的频谱不匹配,从而引入了语音畸变,进而影响了语音质量;(2)频域上的语音增强技术中,采用的语音特征多是基于人耳听觉机理的特征,并非专门为语音增强任务设计的特征,这会造成输入特征和语音增强任务的不匹配,影响增强效果;(3)语音中包含时间上不同尺度的信息,既有大尺度的语义信息,也有小尺度的语音细节纹理,目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。
技术实现思路
本专利技术是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题,而提出一种基于多尺度上下文的单通道语音增强方法。一种基于多尺度上下文的单通道语音增强方法具体过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本专利技术的有益效果为:本专利技术省略频域与时域之间的转换,直接研究在时域上进行的基于多尺度上下文信息的单通道语音增强方法,既有理论意义又有现实意义。本专利技术针对单通道语音增强,提出了一种更加直接,高效的时域语音增强方法,提高语音听觉上的质量和可懂度。对语音的时域表示(语音波形),采用一种全新设计的深度全卷积神经网络,利用语音的多尺度上下文信息对语音进行增强。本专利技术神经网络以带噪语音波形作为输入,在网络的底层直接对语音波形进行建模,并提取语音特征。随后在网络的高层,利用这些语音特征进行语音增强。这样就将语音特征的提取过程与增强模型融合到一个神经网络中,便可以同时学习增强模型和语音特征提取过程,从而避免了语音特征和语音增强任务不匹配的问题。本专利技术中的神经网络以增强后的语音波形作为输出,不再根据频谱和相位合成语音。由于语音波形中既包含频谱信息也包含相位信息,这样便同时对语音的频谱和相位进行了增强,从而避免了带噪相位与增强频谱不匹配的问题。本专利技术中的神经网络由多个膨胀卷积层(DilatedConvolution)堆叠而成,随着层数的加深,每一层卷积的感受野大小呈指数级增长。对于较浅的卷积层,其感受野较小更容易学习到高频信息(短时上下文);对于较深的卷积层,其感受野较大更容易学习到低频信息(长时上下文)。最终将来自不同深度卷积层的输出汇集起来,便得到了不同尺度的上下文信息,利用这些上下文信息可以更好地进行语音增强。从而解决了多尺度上下文信息利用不足的问题。如表1所示,对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比都优于带噪语音在语音可懂度、语音质量和信噪比。附图说明图1为网络中使用到的一维膨胀卷积的示意图,图中给出了某层卷积的输出单元对应的低层感受野大小,p(1)为第一层感受野大小,p(2)为第二层感受野大小,p(3)为第三层感受野大小;图2为全卷积网络的结构图,ConventionalConv为传统卷机层,1×1为卷积核大小,channel为通道,linear为线性激活,DilatedConv为膨胀卷积,r为膨胀系数,pReLU为激活函数。具体实施方式具体实施方式一:本实施方式一种基于多尺度上下文的单通道语音增强方法具体过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中对语音进行标准化;具体过程为:对于有N个采样点的语音片段计算语音片段的时域能量α:得到时域能量α后,用时域能量α对语音片段进行标准化,得到标准化后的语音片段S:其中,为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N。在后续的处理中,如果不加特殊说明,都使用标准化后的语音片段S,而不使用原始的语音片段其它步骤及参数与具体实施方式一相同。具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中计算全卷积网络第一层语音特征;具体过程为:使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号其中,表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数相乘的信号中的对应采样点,p表示中间变量;经过上述卷积之后,可以得到与标准化后的语音片段S(n)长度相同的一种中间信号对中间信号进行非线性变换pReLu,得到第一层的一种语音特征其中,αc为可学习参数,初始值为0.1;将上述的膨胀卷积参数分别随机初始化C次,计算得到C个中间信号再分别进行非线性变换pReLu,得到C个语音特征C个语音特征称为C个通道,共同构成了第一层语音特征L(1)。其它步骤及参数与具体实施方式一或二相同。具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号其中,表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,表示本文档来自技高网
...

【技术保护点】
1.一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述方法具体过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。

【技术特征摘要】
1.一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述方法具体过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。2.根据权利要求1所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤一中对语音进行标准化;具体过程为:对于有N个采样点的语音片段计算语音片段的时域能量α:得到时域能量α后,用时域能量α对语音片段进行标准化,得到标准化后的语音片段S:其中,为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N。3.根据权利要求1或2所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤二中计算全卷积网络第一层语音特征;具体过程为:使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号其中,表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数相乘的信号中的对应采样点,p表示中间变量;对中间信号进行非线性变换pReLu,得到第一层的一种语音特征其中,αc为可学习参数,初始值为0.1;将上述的膨胀卷积参数分别随机初始化C次,计算得到C个中间信号再分别进行非线性变换pReLu,得到C个语音特征C个语音特征称为C个通道,共同构成了第一层语音特征L(1)。4.根据权利要求3所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号其中,表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,表示第l层输入的所有C个通道对应的卷积核的集合,表示第l层输入的第u个通道对应的卷积核,q表示的下标,表示第l层输入的第u个通道,p表示的下标;将上述的膨胀卷积参数分别...

【专利技术属性】
技术研发人员:韩纪庆杜志浩郑贵滨郑铁然
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1