一种语音增强方法和装置制造方法及图纸

技术编号:30366861 阅读:20 留言:0更新日期:2021-10-16 17:37
本发明专利技术提供一种语音增强方法和装置,其中所述方法包括:接收输入的带噪语音信号;将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号;其中,所述语音增强模型包括编码器和解码器,通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理,通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核,不同尺寸的卷积核能捕捉不同尺度的特征,最终的语音增强效果也会有所提升,从而可以将不同尺寸的卷积核的卷积结果进行融合,以显著提高最终的语音增强效果,且表现稳定。且表现稳定。且表现稳定。

【技术实现步骤摘要】
一种语音增强方法和装置


[0001]本专利技术涉及语音处理
,尤其涉及一种语音增强方法和装置、电子设备和存储介质。

技术介绍

[0002]随着科技的迅速崛起和互联网的广泛普及,人工智能已经渐渐成为了许多重复性高、模式固定的工作的替代方案。其中,智能语音识别能力更是被应用于多个场景,例如使用语音代替打字输入方式、智能语音交互硬件、电话智能客服等等。在语音信号纯净的情况下,识别为文字的准确率完全可达到实用标注,然而当输入的语音信号由于背景环境等因素下音频质量遭到影响时,识别准确率将会被严重影响,因此如何还原纯净语音已成为目前语音识别技术最需攻克的难点之一。
[0003]现有技术中,语音增强任务主要通过深度神经网络(Deep Neural Network,DNN)实现。大部分语音增强的研究集中在DNN的宏观架构、损失函数和预测目标上。改变DNN的宏观架构和损失函数旨在使DNN的学习过程更高效、最终语音增强的测评效果更好。
[0004]在语音增强研究领域,除了对DNN的宏观架构、损失函数和预测目标的研究,对DNN中使用的卷积核(Kernel)的大小的研究一直很少。大部分研究使用的卷积核为3*3或者5*5,但是单一尺寸卷积核的效果有局限性,对带噪语音的增强效果并不稳定。

技术实现思路

[0005]本专利技术提供一种语音增强方法和装置、电子设备和存储介质,用以解决现有技术中存在的技术缺陷。
[0006]本专利技术提供一种语音增强方法,包括:
[0007]接收输入的带噪语音信号
[0008]将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号;
[0009]其中,所述语音增强模型包括编码器和解码器,通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理,通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。
[0010]根据本专利技术提供的一种语音增强方法,将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号,包括:
[0011]将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量;
[0012]将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量;
[0013]将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。
[0014]根据本专利技术提供的一种语音增强方法,将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量,包括:
[0015]将所述带噪语音信号依次经由编码器的每个卷积层的多个不同尺寸的卷积核进行卷积处理,得到每个卷积层输出的语音卷积向量,并将每个卷积层输出的语音卷积向量输入至下一个卷积层;
[0016]其中,所述每个卷积层输出的语音卷积向量为将多个不同尺寸的卷积核的处理结果沿通道层进行拼接生成,且输出的所述语音卷积向量的通道数与多个不同尺寸的所述卷积核的通道数相同。
[0017]根据本专利技术提供的一种语音增强方法,将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量,包括:
[0018]对于第一个反卷积层:
[0019]将编码器的最后一个卷积层输出的语音卷积向量输入至解码器的第一个反卷积层中,通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理,得到第一个反卷积层输出的语音反卷积向量,其中,所述第一个反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成;
[0020]对于其他反卷积层:
[0021]将上一个反卷积层输出的语音反卷积向量和该反卷积层对应的卷积层输出的语音卷积向量进行拼接,生成输入该反卷积层的语音向量;其中,所述反卷积层与所述卷积层一一对应;
[0022]将生成的语音向量输入至该反卷积层中,通过该反卷积层的多个不同尺寸的反卷积核进行反卷积处理,得到该反卷积层输出的语音反卷积向量,其中,该反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成,且输出的所述语音反卷积向量的通道数与多个不同尺寸的所述反卷积核的通道数相同。
[0023]根据本专利技术提供的一种语音增强方法,将语音反卷积向量输入至融合层进行融合处理生成纯净语音信号,包括:
[0024]将最后一个反卷积层输出的语音反卷积向量输入至融合层进行融合处理,得到所述纯净语音信号;其中,所述融合层包括一个1*1卷积核。
[0025]根据本专利技术提供的一种语音增强方法,在输入的带噪语音信号为时域观测到的带噪语音信号的情况下,所述卷积核为一维卷积核,所述反卷积核为一维反卷积核,且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸;
[0026]在输入的带噪语音信号为时频域观测到的带噪语音信号的情况下,所述卷积核为二维卷积核,所述反卷积核为二维反卷积核,且所述卷积核和所述反卷积核具有规格一致的多个不同尺寸。
[0027]本专利技术还提供一种语音增强装置,包括:
[0028]接收模块,用于接收输入的带噪语音信号;
[0029]处理模块,用于将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号;
[0030]其中,所述语音增强模型包括编码器和解码器,通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理,通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。
[0031]根据本专利技术提供的一种语音增强装置,所述处理模块包括:
[0032]卷积处理单元,用于将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量;
[0033]反卷积处理单元,用于将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量;
[0034]融合处理单元,用于将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。
[0035]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音增强方法的步骤。
[0036]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音增强方法的步骤。
[0037]本专利技术提供的语音增强方法和装置、电子设备和存储介质,通过将带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号,由于每个卷积层中有多个不同尺寸的卷积核、每个反卷积层中有多个不同尺寸的反卷积核,不同尺寸的卷积核能捕捉不同尺度的特征,最终的语音增强效果也会有所提升,从而可以将不同尺寸的卷积核的卷积结果进行融合,以显著提高最终的语音增强效果,且表现稳定。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:接收输入的带噪语音信号;将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号;其中,所述语音增强模型包括编码器和解码器,通过编码器的多个卷积层的不同尺寸的卷积核进行所述卷积处理,通过解码器的多个反卷积层的多个不同尺寸的反卷积核进行所述反卷积处理。2.根据权利要求1所述的语音增强方法,其特征在于,将所述带噪语音信号输入至语音增强模型中,依次进行卷积处理、反卷积处理以及融合处理生成纯净语音信号,包括:将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量;将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量;将所述语音反卷积向量输入至所述语音增强模型的融合层进行融合处理生成纯净语音信号。3.根据权利要求2所述的语音增强方法,其特征在于,将所述带噪语音信号输入至所述编码器进行卷积处理生成语音卷积向量,包括:将所述带噪语音信号依次经由编码器的每个卷积层的多个不同尺寸的卷积核进行卷积处理,得到每个卷积层输出的语音卷积向量,并将每个卷积层输出的语音卷积向量输入至下一个卷积层;其中,所述每个卷积层输出的语音卷积向量为将多个不同尺寸的卷积核的处理结果沿通道层进行拼接生成,且输出的所述语音卷积向量的通道数与多个不同尺寸的所述卷积核的通道数相同。4.根据权利要求2所述的语音增强方法,其特征在于,将所述语音卷积向量输入至所述解码器进行反卷积处理生成语音反卷积向量,包括:对于第一个反卷积层:将编码器的最后一个卷积层输出的语音卷积向量输入至解码器的第一个反卷积层中,通过第一个反卷积层的多个不同尺寸的反卷积核进行反卷积处理,得到第一个反卷积层输出的语音反卷积向量,其中,所述第一个反卷积层输出的语音反卷积向量为将多个不同尺寸的反卷积核的处理结果沿通道层进行拼接生成;对于其他反卷积层:将上一个反卷积层输出的语音反卷积向量和该反卷积层对应的卷积层输出的语音卷积向量进行拼接,生成输入该反卷积层的语音向量;其中,所述反卷积层与所述卷积层一一对应;将生成的语音向量输入至该反卷积层中,通过该反卷积层的多个不同尺寸的反卷积核进行反卷积处理,得到该反卷积...

【专利技术属性】
技术研发人员:陈泽华吴俊仪蔡玉玉雪巍丁国宏
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1