语音分离方法、装置、电子设备与存储介质制造方法及图纸

技术编号:33789900 阅读:26 留言:0更新日期:2022-06-12 14:46
本发明专利技术提供一种语音分离方法、装置、电子设备与存储介质,其中方法包括:确定待分离语音;将待分离语音输入至语音分离模型,得到语音分离模型输出的待分离语音的目标语音;语音分离模型是多个学生模型中的一个,多个学生模型基于第一样本语音,以及第一样本语音的伪目标语音,对多个初始学生模型训练得到,第一样本语音的伪目标语音基于教师模型和多个初始学生模型分别针对第一样本语音输出的第一语音分离结果确定,教师模型是有监督训练得到的,能够获得分离效果优于教师模型的学生模型,同时提升学生模型的泛化性,在此基础上,将学生模型应用于语音分离任务中,能够得到较好的语音分离效果。的语音分离效果。的语音分离效果。

【技术实现步骤摘要】
语音分离方法、装置、电子设备与存储介质


[0001]本专利技术涉及语音信号处理
,尤其涉及一种语音分离方法、装置、电子设备与存储介质。

技术介绍

[0002]语音分离指的是将不同说话人的干净语音从带噪混合语音中分离出来。神经网络依赖大量有标签数据以提供模型的泛化性,防止过拟合。高质量的有监督数据往往昂贵,难以获取;而无监督数据,通常量大,易获取,但因为缺乏有效的利用方法而被忽略。对基于深度学习的语音分离任务来说,有监督数据更是难以获取,因为噪声、人声干扰等无处不在。
[0003]因此,如何利用大量无监督数据联合少量有监督数据进行针对语音分离的半监督模型训练,仍然是语音分离领域亟待解决的问题。

技术实现思路

[0004]本专利技术提供一种语音分离方法、装置、电子设备与存储介质,用以解决现有技术中缺乏针对语音分离的半监督模型训练方法的问题。
[0005]本专利技术提供一种语音分离方法,包括:
[0006]确定待分离语音;
[0007]将所述待分离语音输入至语音分离模型,得到所述语音分离模型输出的所述待分离语音的目标语音;
[0008]所述语音分离模型是多个学生模型中的一个,所述多个学生模型基于第一样本语音,以及所述第一样本语音的伪目标语音,对多个初始学生模型训练得到,所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定,所述教师模型是有监督训练得到的。
[0009]根据本专利技术提供的一种语音分离方法,所述多个学生模型基于如下步骤训练得到:
[0010]将所述第一样本语音分别输入至所述教师模型和所述多个初始学生模型中,得到所述教师模型和所述多个初始学生模型分别输出的第一语音分离结果;
[0011]确定各第一语音分离结果中分离效果最优的第一语音分离结果,并将所述分离效果最优的第一语音分离结果中的目标语音确定为所述第一样本语音的伪目标语音;
[0012]基于所述第一样本语音的伪目标语音,以及所述多个初始学生模型分别输出的第一语音分离结果,对所述多个初始学生模型进行参数迭代更新,得到所述多个学生模型。
[0013]根据本专利技术提供的一种语音分离方法,所述确定各第一语音分离结果中分离效果最优的第一语音分离结果,包括:
[0014]对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取,并确定所述各第一语音分离结果中的目标语音的语谱特征和所述干扰音频的语谱特征之间的相似度;
[0015]基于所述各第一语音分离结果对应的相似度,确定相似度最低对应的第一语音分离结果,并将所述相似度最低对应的第一语音分离结果确定为所述分离效果最优的第一语音分离结果;
[0016]或者,基于所述各第一语音分离结果对应的相似度,确定所述各第一语音分离结果的分离效果,并基于所述各第一语音分离结果的分离效果,确定所述分离效果最优的第一语音分离结果。
[0017]根据本专利技术提供的一种语音分离方法,所述对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取,包括:
[0018]分别将所述各第一语音分离结果中的目标语音和干扰音频输入至语谱特征提取器中,得到所述目标语音的语谱特征和所述干扰音频的语谱特征;
[0019]所述语谱特征提取器是说话人识别模型中的特征提取器,所述说话人识别模型基于说话人语音以及所述说话人语音的说话人信息训练得到。
[0020]根据本专利技术提供的一种语音分离方法,所述基于所述第一样本语音的伪目标语音,以及所述多个初始学生模型分别输出的第一语音分离结果,对所述多个初始学生模型进行参数迭代更新,包括:
[0021]在所述分离效果最优的第一语音分离结果为所述教师模型输出的第一语音分离结果的情况下,基于所述第一样本语音的伪目标语音,以及所述多个初始学生模型分别输出的第一语音分离结果,对所述多个初始学生模型进行参数迭代更新;
[0022]在所述分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果的情况下,基于所述第一样本语音的伪目标语音,以及其他初始学生模型分别输出的第一语音分离结果,对所述其他初始学生模型进行参数迭代更新,所述其他初始学生模型是所述多个初始学生模型中除所述任一初始学生模型之外的初始学生模型。
[0023]根据本专利技术提供的一种语音分离方法,所述多个学生模型还基于如下步骤训练得到:
[0024]将第二样本语音分别输入至所述多个初始学生模型中,得到所述多个初始学生模型分别输出的第二语音分离结果;
[0025]基于所述第二样本语音的真实目标语音,以及所述多个初始学生模型分别输出的第二语音分离结果,对所述多个初始学生模型进行参数迭代更新,得到所述多个学生模型。
[0026]根据本专利技术提供的一种语音分离方法,所述语音分离模型是基于如下步骤确定的:
[0027]将第三样本语音分别输入至所述多个学生模型中,得到所述多个学生模型分别输出的第三语音分离结果;
[0028]基于所述第三样本语音的真实目标语音,以及所述多个学生模型分别输出的第三语音分离结果,确定所述多个学生模型分别对应的性能评估结果;
[0029]基于所述多个学生模型分别对应的性能评估结果,从所述多个学生模型中确定所述语音分离模型。
[0030]本专利技术还提供一种语音分离装置,包括:
[0031]语音确定单元,用于确定待分离语音;
[0032]语音分离单元,用于将所述待分离语音输入至语音分离模型,得到所述语音分离
模型输出的所述待分离语音的目标语音;
[0033]所述语音分离模型是多个学生模型中的一个,所述多个学生模型基于第一样本语音,以及所述第一样本语音的伪目标语音,对多个初始学生模型训练得到,所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定,所述教师模型是有监督训练得到的。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音分离方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音分离方法。
[0036]本专利技术提供的语音分离方法、装置、电子设备与存储介质,通过构建教师模型以及多个学生模型共同参与半监督模型训练,教师模型根据有监督语音数据训练得到,并根据教师模型和多个学生模型分别针对无监督语音数据的输出结果确定无监督语音数据的伪标签,引导多个学生模型进行训练,从而能够实现学生模型突破教师模型的限制,获得分离效果优于教师模型的学生模型,同时提升学生模型的泛化性,在此基础上,将学生模型应用于对待分离语音的语音分离任务中,能够得到更为纯净的目标语音,获得较好的语音分离效果。
附图说明
[0037]为了更清本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法,其特征在于,包括:确定待分离语音;将所述待分离语音输入至语音分离模型,得到所述语音分离模型输出的所述待分离语音的目标语音;所述语音分离模型是多个学生模型中的一个,所述多个学生模型基于第一样本语音,以及所述第一样本语音的伪目标语音,对多个初始学生模型训练得到,所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定,所述教师模型是有监督训练得到的。2.根据权利要求1所述的语音分离方法,其特征在于,所述多个学生模型基于如下步骤训练得到:将所述第一样本语音分别输入至所述教师模型和所述多个初始学生模型中,得到所述教师模型和所述多个初始学生模型分别输出的第一语音分离结果;确定各第一语音分离结果中分离效果最优的第一语音分离结果,并将所述分离效果最优的第一语音分离结果中的目标语音确定为所述第一样本语音的伪目标语音;基于所述第一样本语音的伪目标语音,以及所述多个初始学生模型分别输出的第一语音分离结果,对所述多个初始学生模型进行参数迭代更新,得到所述多个学生模型。3.根据权利要求2所述的语音分离方法,其特征在于,所述确定各第一语音分离结果中分离效果最优的第一语音分离结果,包括:对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取,并确定所述各第一语音分离结果中的目标语音的语谱特征和所述干扰音频的语谱特征之间的相似度;基于所述各第一语音分离结果对应的相似度,确定相似度最低对应的第一语音分离结果,并将所述相似度最低对应的第一语音分离结果确定为所述分离效果最优的第一语音分离结果;或者,基于所述各第一语音分离结果对应的相似度,确定所述各第一语音分离结果的分离效果,并基于所述各第一语音分离结果的分离效果,确定所述分离效果最优的第一语音分离结果。4.根据权利要求3所述的语音分离方法,其特征在于,所述对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取,包括:分别将所述各第一语音分离结果中的目标语音和干扰音频输入至语谱特征提取器中,得到所述目标语音的语谱特征和所述干扰音频的语谱特征;所述语谱特征提取器是说话人识别模型中的特征提取器,所述说话人识别模型基于说话人语音以及所述说话人语音的说话人信息训练得到。5.根据权利要求2所述的语音分离方法,其特征在于,所述基于所述第一样本语音的伪目标语音,以及所述多个初始学生模型分别输出的第一语音分离结果,对所述多个初始学生模型进...

【专利技术属性】
技术研发人员:潘峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1