用于语音分离的自监督训练预测器的训练方法及系统技术方案

技术编号:36810257 阅读:15 留言:0更新日期:2023-03-09 00:40
本发明专利技术实施例提供一种用于语音分离的自监督训练预测器的训练方法及系统。该方法包括:利用预训练模型分别提取各单人声源语音的自监督训练特征;提取自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征,将各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签;将由各单人声源语音生成的训练混合语音输入至自监督训练预测器,得到各单人声源语音的估计特征;基于估计特征以及与各单人声源语音对应的训练标签确定的损失函数对自监督训练预测器进行训练。本发明专利技术实施例训练自监督训练预测器并应用于语音分离模型中,使自监督训练特征的精度提升,提高了语音分离系统的性能,模型参数和计算复杂度都有所降低。数和计算复杂度都有所降低。数和计算复杂度都有所降低。

【技术实现步骤摘要】
用于语音分离的自监督训练预测器的训练方法及系统


[0001]本专利技术涉及智能语音领域,尤其涉及一种用于语音分离的自监督训练预测器的训练方法及系统。

技术介绍

[0002]对于单个说话人的语音识别,已经可以达到较高的识别精度,然而对于鸡尾酒会问题,例如,当多个说话人一起说话时,对应每个说话人的语音识别率就会降低。
[0003]为了提升多个说话人一起说话时语音识别的精度,现有技术通常会使用到无监督预训练模型。
[0004]大规模无监督预训练模型通过大量的无标注数据,使用基于遮掩

预测的准则进行了自监督训练。训练过程中模型尝试对语音信号的上下文信息进行建模,从而学习到较强的深层嵌入特征。大规模预无监督训练模型在多种下游语音任务中取得了不错的效果。
[0005]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0006]大多数预训练模型都是使用主要由单说话人语音组成的数据集进行训练的,但语音分离输入通常是涉及多个说话者的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。
[0007]大多数预训练模型的训练数据集主要由单说话人语音组成,但语音分离输入通常是涉及多个说话人的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。将预训练模型应用于语音分离任务需要考虑和优化的另一个问题是模型的复杂性和计算成本。大多数预训练模型是针对一般下游任务设计的,使用大规模数据集进行训练。对于语音分离任务来说,其模型的规模可能过于庞大,带来的计算成本可能过于昂贵。

技术实现思路

[0008]为了至少解决现有技术中对于语音分离任务使用预训练模型复杂性和成本较高的问题。
[0009]第一方面,本专利技术实施例提供一种用于语音分离的自监督训练预测器的训练方法,包括:
[0010]利用预训练模型分别提取各单人声源语音的自监督训练特征;
[0011]提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征,将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签;
[0012]将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器,得到各单人声源语音的估计特征;
[0013]基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练,得到训练的自监督训练预测器。
[0014]第二方面,本专利技术实施例提供一种用于语音分离的自监督训练预测器的训练系
统,包括:
[0015]特征提取程序模块,用于利用预训练模型分别提取各单人声源语音的自监督训练特征;
[0016]训练标签确定程序模块,用于提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征,将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签;
[0017]估计特征确定程序模块,用于将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器,得到各单人声源语音的估计特征;
[0018]训练程序模块,用于基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练,得到训练的自监督训练预测器。
[0019]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的用于语音分离的自监督训练预测器的训练方法的步骤。
[0020]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的用于语音分离的自监督训练预测器的训练方法的步骤。
[0021]本专利技术实施例的有益效果在于:设计了自监督训练预测器并进行训练,可以直接从语音混合中提取单个说话人的自监督训练特征。将自监督训练预测器应用于语音分离模型中,预测单个说话人的自监督训练特征的精度提升,整体提高了语音分离系统的性能,并且相较于直接利用混合语音训练的语音分离系统,本方法所需要的模型参数和计算复杂度都有所降低。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的流程图;
[0024]图2是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的Wav2vec 2.0的浅层和深层特征示意图;
[0025]图3是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的结构示意图;
[0026]图4是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的带有自监督训练特征嵌入的语音分离模型示意图;
[0027]图5是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的STOI和SDR用于LibriMix数据集上的语音分离结果示意图;
[0028]图6是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的不同嵌入的预测精度示意图;
[0029]图7是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的累加运算率以及模型大小示意图;
[0030]图8是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的用于LibriMix数据集上的语音分离的STOI和SDR示意图;
[0031]图9是本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练系统的结构示意图;
[0032]图10为本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练的电子设备的实施例的结构示意图。
具体实施方式
[0033]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]如图1所示为本专利技术一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的流程图,包括如下步骤:
[0035]S11:利用预训练模型分别提取各单人声源语音的自监督训练特征;
[0036]S12:提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征,将所述各单人声源语音的浅层特征以及深层特征确定为自监督本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音分离的自监督训练预测器的训练方法,包括:利用预训练模型分别提取各单人声源语音的自监督训练特征;提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征,将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签;将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器,得到各单人声源语音的估计特征;基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练,得到训练的自监督训练预测器。2.根据权利要求1所述的方法,其中,所述自监督训练预测器包括:用于提取时域语音信号的时域卷积神经网络以及用于上下文建模的双路循环神经网络。3.根据权利要求1所述的方法,其中,所述提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征包括:基于时域卷积神经网络模型提取所述自监督训练特征中用于语音表示的浅层特征;基于Transformer提取所述自监督训练特征中用于上下文信息的深层特征。4.根据权利要求1所述的方法,其中,所述预训练模型包括:Wav2vec无监督预训练模型。5.根据权利要求1所述的方法,其中,在得到训练的自监督训练预测器之后,所述方法还包括:将接收到的包含多个说话人的混合语音输入至语音分离模型,其中,所述语音分离包括:编码器、语音分离器、解码器;所述编码器对所述混合语音编码,得到混合语音深层特征,并利用所述自监督训练预测器确定所述混合语音中每个说话人的自监督训练估计特征,基于所述每个说话人的自监督训练估计特征以及所述混合语音深层特征确定融合特征;所述语音分离器确定出所述融合特征中每个说话人的特征编码;所述解码器对所述特征编码进行解码,...

【专利技术属性】
技术研发人员:钱彦旻李晨达曲博文
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1