【技术实现步骤摘要】
一种语音处理方法、装置和用于处理语音的装置
本申请实施例涉及计算机
,具体涉及一种语音处理方法、装置和用于处理语音的装置。
技术介绍
随着计算机技术的发展,诸如智能音箱、录音笔等的语音交互产品越来越丰富。由于语音交互产品在接收语音信号的同时,也会接收到噪声和混响等信号,因而,为避免影响语音识别效果,通常需要从带有噪声、混响的语音中提取出目标语音(如较为纯净的语音)。现有的方式,通常是将理想浮值掩蔽(IdealRatioMask,IRM)作为目标,训练预测理想浮值掩蔽的模型,而后利用该模型得到带噪语音的理想浮值掩蔽的预测值,之后基于该预测值得到掩蔽后的声学特征,从而将掩蔽后的声学特征与带噪语音的相位进行合成,得到目标语音。由于理想浮值掩蔽没有考虑到语音信号的相位信息,因而在合成目标语音的过程中无法对带噪语音的相位进行修正,导致所合成的目标语音的相位不够准确,因而这种语音降噪方式下语音失真程度较大,语音降噪效果较差。
技术实现思路
本申请实施例提出了一种语音处理方法、装置和用于处理语音的装置,以 ...
【技术保护点】
1.一种语音处理方法,其特征在于,所述方法包括:/n对带噪语音进行时频分析,得到所述带噪语音在复数域下的频谱;/n将所述带噪语音在复数域下的频谱输入至预先训练的时频掩蔽预测模型,得到复数域下的所述带噪语音的时频掩蔽的预测值;/n将所述预测值和所述带噪语音在复数域下的频谱相乘,生成所述带噪语音中的目标语音在复数域下的频谱;/n基于所述目标语音在复数域下的频谱,合成所述目标语音。/n
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:
对带噪语音进行时频分析,得到所述带噪语音在复数域下的频谱;
将所述带噪语音在复数域下的频谱输入至预先训练的时频掩蔽预测模型,得到复数域下的所述带噪语音的时频掩蔽的预测值;
将所述预测值和所述带噪语音在复数域下的频谱相乘,生成所述带噪语音中的目标语音在复数域下的频谱;
基于所述目标语音在复数域下的频谱,合成所述目标语音。
2.根据权利要求1所述的方法,其特征在于,所述对带噪语音进行时频分析,得到所述带噪语音在复数域下的频谱,包括:
对带噪语音进行短时傅里叶变换,得到所述带噪语音在复数域下的频谱;
以及,所述基于所述目标语音在复数域下的频谱,合成所述目标语音,包括:
对所述目标语音在复数域下的频谱进行短时傅里叶变换的逆变换,合成所述目标语音。
3.根据权利要求1所述的方法,其特征在于,在所述基于所述目标语音在复数域下的频谱,生成所述目标语音之后,所述方法还包括:
采用后滤波算法对所述目标语音进行滤波处理,得到增强后的目标语音。
4.根据权利要求1所述的方法,其特征在于,所述将所述带噪语音在复数域下的频谱输入至预先训练的时频掩蔽预测模型,得到复数域下的所述带噪语音的时频掩蔽的预测值,包括:
将所述带噪语音在复数域下的频谱的实部和虚部分别以两个通道输入至预先训练的时频掩蔽预测模型,得到所述带噪语音的时频掩蔽的实部和虚部;
基于所述带噪语音的时频掩蔽的实部和虚部,生成复数域下的所述带噪语音的时频掩蔽的预测值。
5.根据权利要求1所述的方法,其特征在于,所述时频掩蔽预测模型通过如下步骤训练得到:
获取带噪语音样本集,其中,所述带噪语音样本集中的带噪语音样本由纯净语音样本集中的纯净语音样本和噪声集中的噪声合成,所述纯净语音样本集中的部分纯净语音样本为混响语音样本或远近人声样本;
对所述带噪语音样本和所述纯净语音样本进行时频分析,分别得到所述带噪语音样本和所述纯净语音样本在复数域下的目标频谱;
基于所述带噪语音样本在复数域下的目标频谱和所述纯净语音样本在复数域下的目标频谱,确定复数域下的所述带噪语音样本的时频掩蔽的目标值,所述目标值包括实部和虚部;
将所述带噪语音样本在复数域下的目标频谱输入至预先建立的卷积循环网络,分别将所述目标值的实部和虚部作为所述卷积循环网络的输出,利用机器学习方法训练得到时频掩蔽预测模型。
6.根据权利要求5所述的方法,其特征在于,所述卷积循环网络包括编码器、第一解码器和第二解码器;
所述编码器与各解码器通过两层长短期记忆网络相连接;
所述编码器包括多层第一结构,每层第一结构包括卷积层、批归一化层和指数激活单元层;
各解码器分别包括多层第二结构,每层第二结构包括反卷积层、批归一化层和指数激活单元层;
所述编码器中的第一结构的层数与各解码器中的第二结构的层数相同,所述编...
【专利技术属性】
技术研发人员:刘允,李劲东,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。