一种语音分离方法及装置制造方法及图纸

技术编号:37867637 阅读:12 留言:0更新日期:2023-06-15 20:57
本申请实施例公开了一种语音分离方法及装置,该方法包括:获取第一语音数据集和第二语音数据集,第一语音数据集包括多个单通道语音信号,第二语音数据集包括M个混合语音信号;从第一语音数据集中选取第一语音信号和第二语音信号,根据第一语音信号和第二语音信号,得到第三语音数据集,第三语音数据集包括N个仿真语音信号;根据M个混合语音信号,对待训练分离模型进行训练;以及根据N个仿真语音信号,对待训练分离模型进行训练,得到预测分离模型,预测分离模型用于对多个用户的语音进行分离。采用本申请实施例,能够防止分离模型陷入全局最优但局部效果差的情况,提升语音分离效果,增强模型的泛化性能。增强模型的泛化性能。增强模型的泛化性能。

【技术实现步骤摘要】
一种语音分离方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种语音分离方法及装置。

技术介绍

[0002]随着计算机技术和智能语音处理技术的快速发展,语音分离技术被广泛地应用于各个领域。语音分离技术是将不同用户的干净语音从混合语音中分离出来,传统的单通道语音分离主要包括非负矩阵分解法、独立分量分析法和听觉场景分析法,然而,这些传统方法只能处理已知用户的语音分离任务,无法泛化到未知用户混合语音的分离上,应用场景大大受限。随着深度学习研究的推进和计算机性能的突破,基于频谱特征的神经网络解决了泛化问题,并且在一定程度上提升了分离性能,但是基于频谱特征的神经网络使用频谱特征作为神经网络的输入,大多数情况下只对幅度特征进行了分离,并没有处理相位信息,导致神经网络分离出的语音中存在少量干扰人声。为了克服这一问题,时域分离法通过卷积

反卷积的方式提取语音信号特征和恢复语音信号,提升了语音分离的性能,然而,大多数的时域语音分离方法是对比估计语音与标签语音的整段音频的尺度不变信号失真比(scale

invariant signal to distortion ratio,SI

SDR),当语音时长过长时,存在模型全局分离效果好但局部分离效果差的情况。

技术实现思路

[0003]本申请实施例提供一种语音分离方法及相关装置,通过训练得到的预测分离模型能够提升语音分离效果,增强模型的泛化性能,防止陷入全局最优但局部效果差的情况。
[0004]第一方面,本申请实施例提供了一种语音分离方法,包括:
[0005]获取第一语音数据集和第二语音数据集,第一语音数据集包括多个单通道语音信号,第二语音数据集包括M个混合语音信号,M为大于0的整数;
[0006]从第一语音数据集中选取第一语音信号和第二语音信号,对第一语音信号和第二语音信号进行数据处理,得到第三语音数据集,第三语音数据集包括N个仿真语音信号,N为大于0的整数;
[0007]将M个混合语音信号输入第一模型,得到M个混合语音信号中每个混合语音信号对应的性别识别结果,将M个混合语音信号输入第二模型,得到M个混合语音信号中每个混合语音信号对应的长度识别结果;
[0008]将N个仿真语音信号输入第一模型,得到N个仿真语音信号中每个仿真语音信号对应的性别识别结果,将N个仿真语音信号输入第二模型,得到N个仿真语音信号中每个仿真语音信号对应的长度识别结果;
[0009]根据M个混合语音信号对应的性别识别结果和M个混合语音信号对应的长度识别结果,调整M个混合语音信号中每个混合语音信号对应的第一空洞卷积率,根据N个仿真语音信号对应的性别识别结果和N个仿真语音信号对应的长度识别结果,调整N个仿真语音信号中每个仿真语音信号对应的第二空洞卷积率;
[0010]根据M个第一空洞卷积率,对M个混合语音信号处理得到M个第一合成语音信号,根据M个混合语音信号和M个第一合成语音信号,对待训练分离模型进行训练;以及
[0011]根据N个第二空洞卷积率,对N个仿真语音信号处理得到第二合成语音信号和第三合成语音信号,根据N个仿真语音信号、第一语音信号、第二语音信号、第二合成语音信号和第三合成语音信号,对待训练分离模型进行训练,得到预测分离模型,预测分离模型用于对多个用户的语音进行分离。
[0012]通过性别识别结果和长度识别结果联合调整空洞卷积率的大小,根据具体语音信号长短动态调整卷积网络的感受野,可以更好地挖掘输入序列的帧间关系,达到较好的分离效果,并且,采用有监督学习与无监督学习结合的方式训练模型,可以解决少量仿真语音信号导致的模型泛化性能差的问题,此外,在训练数据以及标签对应位置截取随机数量随机长度的数据作为损失函数的一部分,可以解决待训练分离模型整体分离效果好但局部分离效果较差的问题。
[0013]在一种可能的设计中,根据M个混合语音信号和M个第一合成语音信号,确定第一损失函数;根据第一损失函数,按照无监督训练方式对待训练分离模型进行训练。基于实际的语音信号与合成的语音信号,构建第一损失函数,通过第一损失函数优化无监督训练方式的待训练分离模型的模型参数,有利于解决待训练分离模型整体分离效果好但局部分离效果较差的问题。
[0014]在另一种可能的设计中,根据N个仿真语音信号、第一语音信号、第二语音信号、第二合成语音信号和第三合成语音信号,确定第二损失函数;根据第二损失函数,按照有监督训练方式对待训练分离模型进行训练。基于实际的语音信号与合成的语音信号,构建第二损失函数,通过第二损失函数优化有监督训练方式的待训练分离模型的模型参数,有利于解决待训练分离模型整体分离效果好但局部分离效果较差的问题。
[0015]在另一种可能的设计中,对M个混合语音信号进行编码处理,得到M个混合语音信号中每个混合语音信号对应的第一中间特征;根据M个第一空洞卷积率,对M个混合语音信号中每个混合语音信号对应的第一中间特征进行数据处理,得到M个混合语音信号中每个混合语音信号对应的第二中间特征;根据M个混合语音信号中每个混合语音信号对应的第二中间特征,得到M个混合语音信号中每个混合语音信号对应的第一合成语音信号。通过动态调整第一空洞卷积率,使每个混合语音信号对应的第二中间特征尽可能多的挖掘当前语音片段中的有效信息,有利于提高第一合成语音信号的准确性。
[0016]在另一种可能的设计中,根据M个混合语音信号中每个混合语音信号对应的第二中间特征,得到M个混合语音信号中每个混合语音信号对应的源信号掩码;根据M个混合语音信号中每个混合语音信号对应的源信号掩码,得到M个混合语音信号中每个混合语音信号对应的第一合成语音信号。通过充分挖掘混合语音信号中包含的有效信息,使每个混合语音信号对应的第二中间特征包含更多的上下文信息,在计算源信号掩码和音频重建时,提升了输入信息的准确性,有利于提升模型的分离效果。
[0017]在另一种可能的设计中,对N个仿真语音信号进行编码处理,得到N个仿真语音信号中每个仿真语音信号对应的第一中间特征;根据N个第二空洞卷积率,对N个仿真语音信号中每个仿真语音信号对应的第一中间特征进行数据处理,得到N个仿真语音信号中每个仿真语音信号对应的第二中间特征;根据N个仿真语音信号中每个仿真语音信号对应的第
二中间特征,得到第二合成语音信号和第三合成语音信号。通过动态调整第二空洞卷积率,使每个仿真语音信号对应的第二中间特征尽可能多的挖掘当前语音片段中的有效信息,有利于提高第二合成语音信号和第三合成语音信号的准确性。
[0018]在另一种可能的设计中,根据N个仿真语音信号中每个仿真语音信号对应的第二中间特征,得到第一语音信号对应的源信号掩码和第二语音信号对应的源信号掩码;根据第一语音信号对应的源信号掩码,得到第二合成语音信号,根据第二语音信号对应的源信号掩码,得到第三合成语音信号。通过充分挖掘仿真语音信号中包含的有效信息,使每个仿真语音信号对应的第二中间特征包含更多的上下文信息,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法,其特征在于,包括:获取第一语音数据集和第二语音数据集,所述第一语音数据集包括多个单通道语音信号,所述第二语音数据集包括M个混合语音信号,所述M为大于0的整数;从所述第一语音数据集中选取第一语音信号和第二语音信号,对所述第一语音信号和所述第二语音信号进行数据处理,得到第三语音数据集,所述第三语音数据集包括N个仿真语音信号,所述N为大于0的整数;将所述M个混合语音信号输入第一模型,得到所述M个混合语音信号中每个混合语音信号对应的性别识别结果,将所述M个混合语音信号输入第二模型,得到所述M个混合语音信号中每个混合语音信号对应的长度识别结果;将所述N个仿真语音信号输入所述第一模型,得到所述N个仿真语音信号中每个仿真语音信号对应的性别识别结果,将所述N个仿真语音信号输入所述第二模型,得到所述N个仿真语音信号中每个仿真语音信号对应的长度识别结果;根据所述M个混合语音信号对应的性别识别结果和所述M个混合语音信号对应的长度识别结果,调整所述M个混合语音信号中每个混合语音信号对应的第一空洞卷积率,根据所述N个仿真语音信号对应的性别识别结果和所述N个仿真语音信号对应的长度识别结果,调整所述N个仿真语音信号中每个仿真语音信号对应的第二空洞卷积率;根据所述M个第一空洞卷积率,对所述M个混合语音信号处理得到M个第一合成语音信号,根据所述M个混合语音信号和所述M个第一合成语音信号,对待训练分离模型进行训练;以及根据所述N个第二空洞卷积率,对所述N个仿真语音信号处理得到第二合成语音信号和第三合成语音信号,根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号,对所述待训练分离模型进行训练,得到预测分离模型,所述预测分离模型用于对多个用户的语音进行分离。2.根据权利要求1所述的方法,其特征在于,所述根据所述M个混合语音信号和所述M个第一合成语音信号,对待训练分离模型进行训练,包括:根据所述M个混合语音信号和所述M个第一合成语音信号,确定第一损失函数;根据所述第一损失函数,按照无监督训练方式对所述待训练分离模型进行训练。3.根据权利要求1所述的方法,其特征在于,所述根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号,对所述待训练分离模型进行训练,包括:根据所述N个仿真语音信号、所述第一语音信号、所述第二语音信号、所述第二合成语音信号和所述第三合成语音信号,确定第二损失函数;根据所述第二损失函数,按照有监督训练方式对所述待训练分离模型进行训练。4.根据权利要求1

3任一项所述的方法,其特征在于,所述根据所述M个第一空洞卷积率,对所述M个混合语音信号处理得到M个第一合成语音信号,包括:对所述M个混合语音信号进行编码处理,得到所述M个混合语音信号中每个混合语音信号对应的第一中间特征;根据所述M个第一空洞卷积率,对所述M个混合语音信号中每个混合语音信号对应的第一中间特征进行数据处理,得到所述M个混合语音信号中每个混合语音信号对应的第二中
间特征;根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征,得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号。5.根据权利要求4所述的方法,其特征在于,所述根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征,得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号,包括:根据所述M个混合语音信号中每个混合语音信号对应的第二中间特征,得到所述M个混合语音信号中每个混合语音信号对应的源信号掩码;根据所述M个混合语音信号中每个混合语音信号对应的源信号掩码,得到所述M个混合语音信号中每个混合语音信号对应的第一合成语音信号。6.根据权利要求1

3任一项所述的方法,其特征在于,所述根据所述N个第二空洞卷积率,对所述N个仿真语音信号处理得到第二合成语音信号和第三合成语音信号,包括:对所述N个仿真语音信号进行编码处理,得到所述N个仿真语音...

【专利技术属性】
技术研发人员:巴莉芳余治伦徐伟林昊邬稳林华春
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1