多人声分离方法技术

技术编号:39596242 阅读:10 留言:0更新日期:2023-12-03 19:54
本申请提供一种多人声分离方法

【技术实现步骤摘要】
多人声分离方法、系统、模型训练方法、介质及设备


[0001]本申请涉及一种多人声分离方法,特别是涉及一种多人声分离方法

系统

模型训练方法

介质及设备


技术介绍

[0002]随着语音识别技术的不断发展,越来越多的智能设备通过语音识别等语音相关的技术来实现人机交互的功能,例如智能音箱

智能手机等设备,通过这些智能设备,人们可以更方便的通过语音来进行设备的相关操作

但是,目前,现有的多人声分离模型结构固定,只能应对一种人声分离的任务而无法自动判断应该分离几个人声

并且现有的大部分人声分离模型的解码器网络结构基本相同,但是却没有加以复用,从而造成资源的浪费

同时,解码器网络往往只有一个分支输出一个语音,输出效果不佳

因此,现有技术中缺少一种能够自动判断人声分离数量且复用网络结构的人声分离模型


技术实现思路

[0003]鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多人声分离方法

系统

模型训练方法

介质及设备,用于解决现有技术中现有技术中缺少一种能够自动判断人声分离数量且复用网络结构的人声分离模型的技术问题

[0004]为实现上述目的及其他相关目的,本申请的第一方面提供一种多人声分离模型的训练方法,包括将混合语音输入多人声分离模型以获取初始混合语音特征;基于所述初始混合语音特征获取独立人声数量;基于所述独立人声数量与所述初始混合语音特征获取最终混合语音特征;基于所述独立人声数量和所述最终混合语音特征获取多人声分离结果;基于所述混合语音和所述多人声分离结果对所述多人声分离模型进行训练以获取训练好的多人声分离模型

[0005]于所述第一方面的一实施例中,基于所述独立人声数量与所述初始混合语音特征获取最终混合语音特征包括:基于所述独立人声数量获取独立人声数量特征;基于所述独立人声数量特征与所述初始混合语音特征获取最终混合语音特征

[0006]于所述第一方面的一实施例中,基于所述独立人声数量和所述最终混合语音特征获取多人声分离结果包括:基于所述独立人声数量设置对应数量的分离网络模块;基于所述对应数量的分离网络模块对所述最终混合语音特征进行处理以获取多人声分离结果

[0007]于所述第一方面的一实施例中,基于所述对应数量的分离网络模块对所述最终混合语音特征进行处理以获取多人声分离结果包括:所述分离网络模块包括转换网络

融合网络与解码器网络;基于所述转换网络和所述融合网络获取与所述独立人声数量对应的独立人声特征;基于所述解码器网络获取所述独立人声特征对应的独立人声语音结果

[0008]于所述第一方面的一实施例中,所述基于所述解码器网络获取所述独立人声特征对应的独立人声语音结果包括:所述解码器网络包括掩码任务头

音序任务头和连接任务头;基于所述掩码任务头获取所述独立人声特征的语音掩码结果;基于所述音序任务头获
取所述独立人声特征的语音音序结果;基于所述连接任务头获取所述独立人声特征的语音连接结果;基于所述语音掩码结果

所述语音音序结果和所述语音连接结果获取所述独立人声语音结果

[0009]于所述第一方面的一实施例中,所述对应数量的分离网络模块权重共享

[0010]本申请的第二方面提供一种多人声分离方法,包括获取混合语音;基于多人声分离模型对所述混合语音进行分离以获取多人声分离结果;所述多人声分离模型为经第一方面所述的训练方法训练好的多人声分离模型

[0011]本申请的第三方面提供一种多人声分离系统,包括获取模块,用于获取混合语音;分离模块,用于基于多人声分离模型对所述混合语音进行分离以获取多人声分离结果;所述多人声分离模型为经第一方面所述的训练方法训练好的多人声分离模型

[0012]本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面所述的多人声分离模型的训练方法和
/
或本申请第二方面所述的多人声分离方法

[0013]本申请的第五方面提供一种电子设备,所述电子设备包括:存储器,存储有一计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行本申请第一方面所述的多人声分离模型的训练方法和
/
或本申请第二方面所述的多人声分离方法

[0014]如上所述,本申请实施例提供的多人声分离方法

系统

模型训练方法

介质及设备,具有以下有益效果:能够自行判断混合语音中需要分离的人声数量,并基于此布置权重共享的网络结构对混合语音进行分离且通过多个网络分支集成恢复为语音进而输出

本申请了减少资源浪费,并且输出语音效果集成效果更佳

附图说明
[0015]图1显示为本申请实施例中多人声分离模型的流程架构示意图

[0016]图2显示为本申请实施例中多人声分离模型的训练方法的流程示意图

[0017]图3显示为本申请实施例中多人声分离模型的训练方法的流程示意图

[0018]图4显示为本申请实施例中多人声分离模型的训练方法的流程示意图

[0019]图5显示为本申请实施例中多人声分离模型的训练方法的流程示意图

[0020]图6显示为本申请实施例中多人声分离模型的训练方法的流程示意图

[0021]图7显示为本申请实施例中多人声分离方法的流程示意图

[0022]图8显示为本申请实施例中多人声分离系统的结构示意图

[0023]图9显示为本申请实施例中电子设备的结构示意图

具体实施方式
[0024]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效

本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变

需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合

[0025]需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构
想,图示中仅显示与本申请中有关的组件而非按照实际实施时的组件数目

形状及尺寸绘制,其实际实施时各组件的型态

数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多人声分离模型的训练方法,其特征在于,包括:将混合语音输入多人声分离模型以获取初始混合语音特征;基于所述初始混合语音特征获取独立人声数量;基于所述独立人声数量与所述初始混合语音特征获取最终混合语音特征;基于所述独立人声数量和所述最终混合语音特征获取多人声分离结果;基于所述混合语音和所述多人声分离结果对所述多人声分离模型进行训练以获取训练好的多人声分离模型
。2.
根据权利要求1所述的多人声分离模型的训练方法,其特征在于,基于所述独立人声数量与所述初始混合语音特征获取最终混合语音特征包括:基于所述独立人声数量获取独立人声数量特征;基于所述独立人声数量特征与所述初始混合语音特征获取最终混合语音特征
。3.
根据权利要求1所述的多人声分离模型的训练方法,其特征在于,基于所述独立人声数量和所述最终混合语音特征获取多人声分离结果包括:基于所述独立人声数量设置对应数量的分离网络模块;基于所述对应数量的分离网络模块对所述最终混合语音特征进行处理以获取多人声分离结果
。4.
根据权利要求3所述的多人声分离模型的训练方法,其特征在于,基于所述对应数量的分离网络模块对所述最终混合语音特征进行处理以获取多人声分离结果包括:所述分离网络模块包括转换网络

融合网络与解码器网络;基于所述转换网络和所述融合网络获取与所述独立人声数量对应的独立人声特征;基于所述解码器网络获取所述独立人声特征对应的独立人声语音结果
。5.
根据权利要求4所述的多人声分离模型的训练方法,其特征在于,所述基于所述解码器网络获取所述独立人声特征对应的独立人声语音结果包括:所述解码器网络...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1