用于增强语音的方法和装置制造方法及图纸

技术编号:19010344 阅读:16 留言:0更新日期:2018-09-22 10:04
本申请实施例公开了用于增强语音的方法和装置。该方法的一具体实施方式包括:获取麦克风阵列采集的多个通道的时域语音;基于多个通道的时域语音,生成至少一个通道的频域语音;对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数;利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。该实施方式实现了富于针对性地语音增强,有助于消除语音中的噪声和室内混响,提高语音识别的准确度。

Method and device for enhancing speech

The embodiment of the application discloses a method and device for enhancing speech. One specific embodiment of the method includes: acquiring multi-channel time-domain speech captured by microphone array; generating at least one channel frequency-domain speech based on multi-channel time-domain speech; analyzing the frequency-domain speech of at least one channel to obtain the normalized enhancement coefficient of the frequency-domain speech of at least one channel; The normalized enhancement coefficients of the frequency domain speech of at least one channel are used to enhance the frequency domain speech of at least one channel, and the enhanced frequency domain speech of at least one channel is obtained. The enhanced time domain speech of at least one channel is obtained by inverse Fourier transform of the enhanced frequency domain speech of at least one channel. The implementation realizes targeted speech enhancement, helps to eliminate noise and indoor reverberation in speech, and improves the accuracy of speech recognition.

【技术实现步骤摘要】
用于增强语音的方法和装置
本申请实施例涉及计算机
,具体涉及用于增强语音的方法和装置。
技术介绍
随着现代科学的蓬勃发展,通信或信息交换已成为人类社会存在的必要条件,而语音作为语言的声学表现,是人类交流信息最自然、最有效、最方便的手段之一。然而,在语音通信过程中,不可避免地会受到来自周围环境、传媒介质引入的噪声、室内混响、乃至其他讲话者的干扰。这些噪声会使语音的质量和可懂度受到影响,因此在许多通话应用中都需要进行有效的语音增强处理,以抑制噪声,去除室内混响,提高语音清晰度、可懂度和舒适度。目前常用的语音增强方法是基于延迟-加和(delay-sum)的语音增强方法。利用多个麦克风接收语音信号,采用延迟-加和方法进行时延补偿,形成具有指向性的空间波束,对指定方向上的语音进行增强。
技术实现思路
本申请实施例提出了用于增强语音的方法和装置。第一方面,本申请实施例提供了一种用于增强语音的方法,包括:获取麦克风阵列采集的多个通道的时域语音;基于多个通道的时域语音,生成至少一个通道的频域语音;对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数;利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。在一些实施例中,基于多个通道的时域语音,生成至少一个通道的频域语音,包括:对多个通道的时域语音进行滤波,得到至少一个通道的时域语音;对至少一个通道的时域语音进行傅立叶变换,得到至少一个通道的频域语音。在一些实施例中,对多个通道的时域语音进行滤波,得到至少一个通道的时域语音,包括:计算多个通道中的通道与其他通道之间的距离之和;基于所计算出的和对多个通道的时域语音进行滤波,得到至少一个通道的时域语音。在一些实施例中,对至少一个通道的时域语音进行傅立叶变换,得到至少一个通道的频域语音,包括:对于至少一个通道的时域语音中的每个通道的时域语音,对该通道的时域语音进行加窗分帧处理,得到该通道的时域语音的多帧时域语音段,对该通道的时域语音的多帧时域语音段进行短时傅立叶变换,得到至少一个通道的频域语音。在一些实施例中,对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数,包括:对至少一个通道的频域语音进行掩蔽阈值估计,得到至少一个通道的频域语音的掩蔽阈值;对至少一个通道的频域语音的掩蔽阈值进行分析,生成至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵;利用至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵极小化与多个通道的时域语音对应的输出语音的信噪比,得到至少一个通道的频域语音的增强系数;对至少一个通道的频域语音的增强系数进行归一化处理,得到至少一个通道的频域语音的归一化增强系数。在一些实施例中,对至少一个通道的频域语音进行掩蔽阈值估计,得到至少一个通道的频域语音的掩蔽阈值,包括:将至少一个通道的频域语音依次输入至预先训练的掩蔽阈值预估模型,得到至少一个通道的频域语音的掩蔽阈值,其中,掩蔽阈值预估模型用于预估频域语音的掩蔽阈值。在一些实施例中,掩蔽阈值预估模型包括两个一维卷积层、两个门控循环单元和一个全连接层。在一些实施例中,掩蔽阈值预估模型是通过如下步骤训练得到的:获取训练样本集合,其中,训练样本包括样本频域语音和样本频域语音的掩蔽阈值;将训练样本集合中的样本频域语音作为输入,将输入的样本频域语音的掩蔽阈值作为输出,训练得到掩蔽阈值预估模型。第二方面,本申请实施例提供了一种用于增强语音的装置,包括:获取单元,被配置成获取麦克风阵列采集的多个通道的时域语音;变换单元,被配置成基于多个通道的时域语音,生成至少一个通道的频域语音;分析单元,被配置成对至少一个通道的频域语音进行分析,得到至少一个通道的频域语音的归一化增强系数;增强单元,被配置成利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;逆变换单元,被配置成对至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。在一些实施例中,变换单元包括:滤波子单元,被配置成对多个通道的时域语音进行滤波,得到至少一个通道的时域语音;变换子单元,被配置成对至少一个通道的时域语音进行傅立叶变换,得到至少一个通道的频域语音。在一些实施例中,滤波子单元包括:计算模块,被配置成计算多个通道中的通道与其他通道之间的距离之和;滤波模块,被配置成基于所计算出的和对多个通道的时域语音进行滤波,得到至少一个通道的时域语音。在一些实施例中,变换子单元进一步被配置成:对于至少一个通道的时域语音中的每个通道的时域语音,对该通道的时域语音进行加窗分帧处理,得到该通道的时域语音的多帧时域语音段,对该通道的时域语音的多帧时域语音段进行短时傅立叶变换,得到至少一个通道的频域语音。在一些实施例中,分析单元包括:估计子单元,被配置成对至少一个通道的频域语音进行掩蔽阈值估计,得到至少一个通道的频域语音的掩蔽阈值;分析子单元,被配置成对至少一个通道的频域语音的掩蔽阈值进行分析,生成至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵;极小化子单元,被配置成利用至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵极小化与多个通道的时域语音对应的输出语音的信噪比,得到至少一个通道的频域语音的增强系数;归一化子单元,被配置成对至少一个通道的频域语音的增强系数进行归一化处理,得到至少一个通道的频域语音的归一化增强系数。在一些实施例中,估计子单元进一步被配置成:将至少一个通道的频域语音依次输入至预先训练的掩蔽阈值预估模型,得到至少一个通道的频域语音的掩蔽阈值,其中,掩蔽阈值预估模型用于预估频域语音的掩蔽阈值。在一些实施例中,掩蔽阈值预估模型包括两个一维卷积层、两个门控循环单元和一个全连接层。在一些实施例中,掩蔽阈值预估模型是通过如下步骤训练得到的:获取训练样本集合,其中,训练样本包括样本频域语音和样本频域语音的掩蔽阈值;将训练样本集合中的样本频域语音作为输入,将输入的样本频域语音的掩蔽阈值作为输出,训练得到掩蔽阈值预估模型。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于增强语音的方法和装置,通过对麦克风阵列采集的多个通道的时域语音进行变换,从而得到至少一个通道的频域语音;之后,对至少一个通道的频域语音进行分析,以得到至少一个通道的频域语音的归一化增强系数;然后,利用至少一个通道的频域语音的归一化增强系数对至少一个通道的频域语音进行增强处理,以得到至少一个通道的增强频域语音;最后,对至少一个通道的增强频域语音进行逆傅立叶变换,从而得到至少一个通道的增强时域语音。实现了富于针对性地语音增强,有助于消除语音中的噪声和室内混响,提高语音识别的准确度。附图本文档来自技高网...
用于增强语音的方法和装置

【技术保护点】
1.一种用于增强语音的方法,包括:获取麦克风阵列采集的多个通道的时域语音;基于所述多个通道的时域语音,生成至少一个通道的频域语音;对所述至少一个通道的频域语音进行分析,得到所述至少一个通道的频域语音的归一化增强系数;利用所述至少一个通道的频域语音的归一化增强系数对所述至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对所述至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。

【技术特征摘要】
1.一种用于增强语音的方法,包括:获取麦克风阵列采集的多个通道的时域语音;基于所述多个通道的时域语音,生成至少一个通道的频域语音;对所述至少一个通道的频域语音进行分析,得到所述至少一个通道的频域语音的归一化增强系数;利用所述至少一个通道的频域语音的归一化增强系数对所述至少一个通道的频域语音进行增强处理,得到至少一个通道的增强频域语音;对所述至少一个通道的增强频域语音进行逆傅立叶变换,得到至少一个通道的增强时域语音。2.根据权利要求1所述的方法,其中,所述基于所述多个通道的时域语音,生成至少一个通道的频域语音,包括:对所述多个通道的时域语音进行滤波,得到至少一个通道的时域语音;对所述至少一个通道的时域语音进行傅立叶变换,得到至少一个通道的频域语音。3.根据权利要求2所述的方法,其中,所述对所述多个通道的时域语音进行滤波,得到至少一个通道的时域语音,包括:计算所述多个通道中的通道与其他通道之间的距离之和;基于所计算出的和对所述多个通道的时域语音进行滤波,得到至少一个通道的时域语音。4.根据权利要求2所述的方法,其中,所述对所述至少一个通道的时域语音进行傅立叶变换,得到至少一个通道的频域语音,包括:对于所述至少一个通道的时域语音中的每个通道的时域语音,对该通道的时域语音进行加窗分帧处理,得到该通道的时域语音的多帧时域语音段,对该通道的时域语音的多帧时域语音段进行短时傅立叶变换,得到至少一个通道的频域语音。5.根据权利要求1所述的方法,其中,所述对所述至少一个通道的频域语音进行分析,得到所述至少一个通道的频域语音的归一化增强系数,包括:对所述至少一个通道的频域语音进行掩蔽阈值估计,得到所述至少一个通道的频域语音的掩蔽阈值;对所述至少一个通道的频域语音的掩蔽阈值进行分析,生成所述至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵;利用所述至少一个通道的频域语音中的信号和噪声的功率谱密度矩阵极小化与所述多个通道的时域语音对应的输出语音的信噪比,得到所述至少一个通道的频域语音的增强系数;对所述至少一个通道的频域语音的增强系数进行归一化处理,得到所述至少一个通道的频域语音的归一化增强系数。6.根据权利要求5所述的方法,其中,所述对所述至少一个通道的频域语音进行掩蔽阈值估计,得到所述至少一个通道的频域语音的掩蔽阈值,包括:将所述至少一个通道的频域语音依次输入至预先训练的掩蔽阈值预估模型,得到所述至少一个通道的频域语音的掩蔽阈值,其中,所述掩蔽阈值预估模型用于预估频域语音的掩蔽阈值。7.根据权利要求6所述的方法,其中,所述掩蔽阈值预估模型包括两个一维卷积层、两个门控循环单元和一个全连接层。8.根据权利要求6或7所述的方法,其中,所述掩蔽阈值预估模型是通过如下步骤训练得到的:获取训练样本集合,其中,训练样本包括样本频域语音和所述样本频域语音的掩蔽阈值;将所述训练样本集合中的样本频域语音作为输入,将输入的样本频域语音的掩蔽阈值作为输出,训练得到所述掩蔽阈值预估模型。9.一种用于增强语音的装置,包括:获取单元,被配置成获取麦克风阵列采集的多个通道的时域语音;变换单元,被配置成基于所述多个通道的时域语音,生成至...

【专利技术属性】
技术研发人员:李超孙建伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1