一种混合语音分离方法、装置、设备及存储介质制造方法及图纸

技术编号:37787562 阅读:29 留言:0更新日期:2023-06-09 09:17
本发明专利技术公开了一种混合语音分离方法、装置、设备及存储介质。该方法包括:获取待分离混合语音;将所述待分离混合语音进行分解变换处理,获得所述待分离混合语音对应的混合幅度信息和混合相位信息;将所述混合幅度信息输入至目标语音分离模型中进行语音分离处理,并基于所述目标语音分离模型的输出,获得所述待分离混合语音对应的时频掩码;基于所述时频掩码和所述待分离混合语音,确定人声幅度信息和噪声幅度信息;基于所述混合相位信息、所述人声幅度信息和所述噪声幅度信息,确定目标人声语音和目标噪声语音,从而可以提高语音分离精度,优化语音分离平滑度,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
一种混合语音分离方法、装置、设备及存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种混合语音分离方法、装置、设备及存储介质。

技术介绍

[0002]随着社会的发展和科学技术的进步与发展,智能语音系统可以节省人力物力更方便快捷地分离并识别语音信号。但是在现实生活中,语音信号无法避免与周围噪声混叠的情况,这将大大降低整个系统的语音识别性能。
[0003]目前常用的语音分离方法包括基于统计建模的语音分离方法、基于计算场景视觉分析的语音分离方法、基于盲源分离的语音分离方法以及基于深度学习的分离方法。然而,现有的语音分离方法提取的特征有限,语音分离的精确度较低,所达到的分离效果较差,无法满足实际需求。

技术实现思路

[0004]本专利技术提供了一种混合语音分离方法、装置、设备及存储介质,以提高语音分离精度,优化语音分离平滑度,提升用户体验。
[0005]根据本专利技术的一方面,提供了一种混合语音分离方法。该方法包括:
[0006]获取待分离混合语音;
[0007]将所述待分离混合语音进行分解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种混合语音分离方法,其特征在于,包括:获取待分离混合语音;将所述待分离混合语音进行分解变换处理,获得所述待分离混合语音对应的混合幅度信息和混合相位信息;将所述混合幅度信息输入至目标语音分离模型中进行语音分离处理,并基于所述目标语音分离模型的输出,确定所述待分离混合语音对应的时频掩码;基于所述时频掩码和所述待分离混合语音,确定人声幅度信息和噪声幅度信息;基于所述混合相位信息、所述人声幅度信息和所述噪声幅度信息,确定目标人声语音和目标噪声语音。2.根据权利要求1所述的方法,其特征在于,所述将所述混合幅度信息输入至目标语音分离模型中进行语音分离处理,并基于所述目标语音分离模型的输出,确定所述待分离混合语音对应的时频掩码,包括:将所述混合幅度信息输入至所述目标语音分离模型中进行语音分离处理,并基于所述目标语音分离模型的输出,获得预测人声幅度信息和预测噪声幅度信息;根据所述预测人声幅度信息和所述预测噪声幅度信息,确定所述待分离混合语音对应的时频掩码。3.根据权利要求2所述的方法,其特征在于,所述根据所述预测人声幅度信息和所述预测噪声幅度信息,确定所述待分离混合语音对应的时频掩码,包括:确定所述预测人声幅度信息和所述预测噪声幅度信息的求和结果;将所述预测人声幅度信息与所述求和结果的商值结果确定为所述待分离混合语音对应的时频掩码。4.根据权利要求1所述的方法,其特征在于,所述目标语音分离模型基于生成对抗网络训练获得,其中,所述生成对抗网络包括生成器和判别器;在所述获取待分离混合语音之前,包括:获取混合幅度信息样本以及所述混合幅度信息样本对应的期望人声幅度信息和期望噪声幅度信息;将所述混合幅度信息样本输入至所述生成器中,并基于语音字典进行语音分离处理,根据所述生成器的输出,获得模型分离结果;将所述期望人声幅度信息、所述期望噪声幅度信息、所述模型分离结果和所述混合幅度信息样本输入至所述判别器中,确定所述判别器对应的模型判别结果;在所述模型判别结果为不满足预设结束条件情况下,调整所述生成器中的语音字典,并继续训练所述生成器,或,在所述模型判别结果为满足预设结束条件情况下,将训练得到的所述生成器确定为目标语音分离模型。5.根据权利要求4所述的方法,其特征在于,所述模型分离结果包括预测人声幅度信息和预测噪声幅度信息;所述确定所述判别器对应的模型判别结果,包括:将所述预测人声幅...

【专利技术属性】
技术研发人员:张雪杨俊祥
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1