一种语音分离方法及装置制造方法及图纸

技术编号：37867637 阅读：12 留言：0更新日期：2023-06-15 20:57

本申请实施例公开了一种语音分离方法及装置，该方法包括：获取第一语音数据集和第二语音数据集，第一语音数据集包括多个单通道语音信号，第二语音数据集包括M个混合语音信号；从第一语音数据集中选取第一语音信号和第二语音信号，根据第一语音信号和第二语音信号，得到第三语音数据集，第三语音数据集包括N个仿真语音信号；根据M个混合语音信号，对待训练分离模型进行训练；以及根据N个仿真语音信号，对待训练分离模型进行训练，得到预测分离模型，预测分离模型用于对多个用户的语音进行分离。采用本申请实施例，能够防止分离模型陷入全局最优但局部效果差的情况，提升语音分离效果，增强模型的泛化性能。增强模型的泛化性能。增强模型的泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音分离方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种语音分离方法及装置。

技术介绍

[0002]随着计算机技术和智能语音处理技术的快速发展，语音分离技术被广泛地应用于各个领域。语音分离技术是将不同用户的干净语音从混合语音中分离出来，传统的单通道语音分离主要包括非负矩阵分解法、独立分量分析法和听觉场景分析法，然而，这些传统方法只能处理已知用户的语音分离任务，无法泛化到未知用户混合语音的分离上，应用场景大大受限。随着深度学习研究的推进和计算机性能的突破，基于频谱特征的神经网络解决了泛化问题，并且在一定程度上提升了分离性能，但是基于频谱特征的神经网络使用频谱特征作为神经网络的输入，大多数情况下只对幅度特征进行了分离，并没有处理相位信息，导致神经网络分离出的语音中存在少量干扰人声。为了克服这一问题，时域分离法通过卷积
‑
反卷积的方式提取语音信号特征和恢复语音信号，提升了语音分离的性能，然而，大多数的时域语音分离方法是对比估计语音与标签语音的整段音频的尺度不变信号失真比(scale
‑
invariant signal to distortion ratio，SI
‑
SDR)，当语音时长过长时，存在模型全局分离效果好但局部分离效果差的情况。

技术实现思路

[0003]本申请实施例提供一种语音分离方法及相关装置，通过训练得到的预测分离模型能够提升语音分离效果，增强模型的泛化性能，防止陷入全局最优但局部效果差的情况。
[0004]...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法，其特征在于，包括：获取第一语音数据集和第二语音数据集，所述第一语音数据集包括多个单通道语音信号，所述第二语音数据集包括M个混合语音信号，所述M为大于0的整数；从所述第一语音数据集中选取第一语音信号和第二语音信号，对所述第一语音信号和所述第二语音信号进行数据处理，得到第三语音数据集，所述第三语音数据集包括N个仿真语音信号，所述N为大于0的整数；将所述M个混合语音信号输入第一模型，得到所述M个混合语音信号中每个混合语音信号对应的性别识别结果，将所述M个混合语音信号输入第二模型，得到所述M个混合语音信号中每个混合语音信号对应的长度识别结果；将所述N个仿真语音信号输入所述第一模型，得到所述N个仿真语音信号中每个仿真语音信号对应的性别识别结果，将所述N个仿真语音信号输入所述第二模型，得到所述N个仿真语音信号中每个仿真语音信号对应的长度识别结果；根据所述M个混合语音信号对应的性别识别结果和所述M个混合语音信号对应的长度识别结果，调整所述M个混合语音信号中每个混合语音信号对应的第一空洞卷积率，根据所述N个仿真语音信号对应的性别识别结果和所述N个仿真语音信号对应的长度识别结果，调整所述N个仿真语音信号中每个仿真语音信号对应的第二空洞卷积率；根据所述M个第一空洞卷积率，对所述M个混合语音信号处理得到M个第一合成语音信号，根据所述M个混合语音信号和所述M个第一合成语音信号，对待训练分离模型进行训练；以及根据所述N个第二空洞卷积率，对所述N个仿真语音信号处理得到第二合成语音信号和第三合成语音信号，根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号，对所述待训练分离模型进行训练，得到预测分离模型，所述预测分离模型用于对多个用户的语音进行分离。2.根据权利要求1所述的方法，其特征在于，所述根据所述M个混合语音信号和所述M个第一合成语音信号，对待训练分离模型进行训练，包括：根据所述M个混合语音信号和所述M个第一合成语音信号，确定第一损失函数；根据所述第一损失函数，按照无监督训练方式对所述待训练分离模型进行训练。3.根据权利要求1所述的方法，其特征在于，所述根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号，对所述待训练分离模型进行训练，包括：根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号，确定第二损失函数；根据所述第二损失函数，按照有监督训练方式对所述待训练分离模型进行训练。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述根据所述M个第一空洞卷积率，对所述M个混合语音信号处理得到M个第一合成语音信号，包括：对所述M个混合语音信号进行编码处理，得到所述M个混合语音信号中每个混合语音信号对应的第一中间特征；根据所述M个第一空洞卷积率，对所述M个混合语音信号中每个混合语音信号对应的第一中间特征进行数据处理，得到所述M个混合语音信号中每个混合语音信号对应的第二中
间特征；根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征，得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号。5.根据权利要求4所述的方法，其特征在于，所述根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征，得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号，包括：根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征，得到所述M个混合语音信号中每个混合语音信号对应的源信号掩码；根据所述M个混合语音信号中每个混合语音信号对应的源信号掩码，得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号。6.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述根据所述N个第二空洞卷积率，对所述N个仿真语音信号处理得到第二合成语音信号和第三合成语音信号，包括：对所述N个仿真语音信号进行编码处理，得到所述N个仿真语音...

【专利技术属性】
技术研发人员：巴莉芳，余治伦，徐伟，林昊，邬稳，林华春，
申请(专利权)人：招联消费金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人