语音分离模型训练方法技术

技术编号:39569887 阅读:8 留言:0更新日期:2023-12-03 19:20
本申请提供了一种语音分离模型训练方法

【技术实现步骤摘要】
语音分离模型训练方法、语音分离方法及装置


[0001]本申请实施例涉及人工智能
,尤其涉及一种语音分离模型训练方法

语音分离方法及装置


技术介绍

[0002]语音分离,是指通过运用一定的方法从混合语音信号中计算出个体语音信号的信号处理技术,目前的语音分离可以分为两个方向,一是在混合语音中进行多个声源之间的分离,二是在混合语音中进行单一声源与噪声等干扰的分离

[0003]针对在混合语音中进行多个声源之间的分离,一般是指将多人同时说话的单条混合语音分离为多条单个说话人的语音

现有的一种语音分离方法中,通过预先存储目标说话人的声纹信息,在语音分离时根据预存的目标说话人的声纹信息从待分离语音中提取出目标说话人的语音

[0004]然而,上述方法中,需要预先采集目标说话人的声纹信息并存储,只能支持已存储声纹信息的目标说话人的语音分离,应用范围受限


技术实现思路

[0005]本申请提供一种语音分离模型训练方法

语音分离方法及装置,可实现对包含任意声音源的混合语音进行语音分离,应用范围不受限

[0006]第一方面,本申请提供一种语音分离模型训练方法,包括:
[0007]在任一次训练过程中,以训练样本的混合语音特征为编码器的输入,输出所述训练样本的隐层表征,所述训练样本为一条混合语音信号,所述混合语音信号为来自多个声音源的语音信号的融合信号;
[0008]以所述训练样本的隐层表征为解码器的输入,依次输出所述训练样本的单个声音源的语音分离结果;
[0009]根据每次训练过程所使用的训练样本和得到的所述训练样本的单个声音源的语音分离结果,对所述编码器的参数和所述解码器的参数进行调整,直到满足停止训练条件,将满足所述停止训练条件所确定的解码器和编码器输出为语音分离模型

[0010]第二方面,本申请提供一种语音分离方法,包括:
[0011]获取待分离语音信号的混合语音特征;
[0012]将待分离语音信号的混合语音特征输入语音分离模型,输出所述待分离语音信号的单个声音源的语音分离结果,所述语音分离模型包括编码器和解码器,所述语音分离模型根据第一方面所述的方法训练得到;
[0013]将所述待分离语音信号的单个声音源的语音分离结果分别输入声码器,输出所述待分离语音信号的单个声音源的语音信号

[0014]第三方面,本申请提供一种语音分离模型训练装置,包括:
[0015]训练模块,用于在任一次训练过程中,以训练样本的混合语音特征为编码器的输
入,输出所述训练样本的隐层表征,所述训练样本为一条混合语音信号,所述混合语音信号为来自多个声音源的语音信号的融合信号;
[0016]所述训练模块还用于:以所述训练样本的隐层表征为解码器的输入,依次输出所述训练样本的单个声音源的语音分离结果;
[0017]调整模块,用于根据每次训练过程所使用的训练样本和得到的所述训练样本的单个声音源的语音分离结果,对所述编码器的参数和所述解码器的参数进行调整,直到满足停止训练条件;
[0018]输出模块,用于将满足所述停止训练条件所确定的解码器和编码器输出为语音分离模型

[0019]第四方面,本申请提供一种语音分离装置,包括:
[0020]获取模块,用于获取待分离语音信号的混合语音特征;
[0021]第一处理模块,用于将待分离语音信号的混合语音特征输入语音分离模型,输出所述待分离语音信号的单个声音源的语音分离结果,所述语音分离模型包括编码器和解码器,所述语音分离模型根据权利要求第一方面所述的方法训练得到;
[0022]第二处理模块,用于将所述待分离语音信号的单个声音源的语音分离结果分别输入声码器,输出所述待分离语音信号的单个声音源的语音信号

[0023]第五方面,本申请提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面或第二方面的方法

[0024]第六方面,本申请提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行第一方面或第二方面的方法

[0025]第七方面,本申请提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面或第二方面所述方法的步骤

[0026]综上,本申请实施例提供的语音分离模型训练方法,在训练过程中,训练样本为来自多个任意声音源的语音信号的融合信号,通过编码器输入训练样本的混合语音特征,输出训练样本的隐层表征,解码器输入训练样本的隐层表征,依次输出训练样本的单个声音源的语音分离结果,然后根据每次训练过程所使用的训练样本和得到的训练样本的单个声音源的语音分离结果,对编码器的参数和解码器的参数进行调整,直到满足停止训练条件,最终得到包括编码器和解码器的语音分离模型

从而在保证语音分离模型的语音分离准确性的同时,可实现对包含任意声音源的混合语音进行语音分离,且支持对包含任意数量声音源的混合语音进行语音分离,应用范围不受限

附图说明
[0027]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0028]图1为本申请实施例提供的一种语音分离方法的应用场景示意图;
[0029]图2为本申请实施例提供的一种语音分离模型训练方法的流程图;
[0030]图3为本申请实施例提供的一种语音分离模型训练过程示意图;
[0031]图4为本申请实施例提供的一种语音分离模型训练过程示意图;
[0032]图5为本申请实施例提供的一种基于
Transformer
的语音分离模型结构示意图;
[0033]图6为本申请实施例提供的一种语音分离模型结构示意图;
[0034]图7为本申请实施例提供的一种语音分离方法的流程图;
[0035]图8为本申请实施例提供的一种语音分离方法的过程示意图;
[0036]图9为本申请实施例提供的一种语音分离方法的过程示意图;
[0037]图
10
为本申请实施例提供的一种语音分离模型训练装置的结构示意图;
[0038]图
11
为本申请实施例提供的一种语音分离装置的结构示意图;
[0039]图
12
是本申请实施例提供的计算机设备
700
的示意性框图

具体实施方式
[0040]下面将结合本专利技术实施例中的附图,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音分离模型训练方法,其特征在于,包括:在任一次训练过程中,以训练样本的混合语音特征为编码器的输入,输出所述训练样本的隐层表征,所述训练样本为一条混合语音信号,所述混合语音信号为来自多个声音源的语音信号的融合信号;以所述训练样本的隐层表征为解码器的输入,依次输出所述训练样本的单个声音源的语音分离结果;根据每次训练过程所使用的训练样本和得到的所述训练样本的单个声音源的语音分离结果,对所述编码器的参数和所述解码器的参数进行调整,直到满足停止训练条件,将满足所述停止训练条件所确定的解码器和编码器输出为语音分离模型
。2.
根据权利要求1所述的方法,其特征在于,所述解码器用于依次根据所述训练样本的隐层表征和所述训练样本的历史语音分离结果,输出所述训练样本的单个声音源的语音分离结果,其中,所述训练样本的第1个声音源的语音分离结果对应的历史语音分离结果为全零语音特征,所述全零语音特征的维度与所述训练样本的混合语音特征的维度相同
。3.
根据权利要求2所述的方法,其特征在于,所述以所述训练样本的隐层表征为解码器的输入,依次输出所述训练样本的单个声音源的语音分离结果,包括:依次以所述训练样本的隐层表征以及第0个声音源的语音分离结果至第
n
‑1个声音源的语音分离结果的拼接结果为解码器的输入,输出第
n
个声音源的语音分离结果,所述
n
大于或等于
1。4.
根据权利要求2所述的方法,其特征在于,所述解码器包括循环神经网络结构,所述以所述训练样本的隐层表征为解码器的输入,依次输出所述训练样本的单个声音源的语音分离结果,包括:依次以所述训练样本的隐层表征和第
n
‑1个声音源的语音分离结果为输入,根据所述循环神经网络结构记忆的第1个声音源的语音分离结果至第
n
‑2个声音源的语音分离结果,输出第
n
个声音源的语音分离结果,所述
n
大于或等于
1。5.
根据权利要求2所述的方法,其特征在于,所述解码器在输出所述训练样本的单个声音源的语音分离结果时,按照所述训练样本中单个声音源的语音信号在未混合之前的音量从大到小的顺序输出
。6.
根据权利要求2所述的方法,其特征在于,所述解码器在输出所述训练样本的最后一个单个声音源的语音分离结果后,输出一条全零语音特征,所述全零语音特征的维度与所述训练样本的混合语音特征的维度相同
。7.
根据权利要求1所述的方法,其特征在于,所述根据每次训练过程所使用的训练样本和得到的所述训练样本的单个声音源的语音分离结果,对所述编码器的参数和所述解码器的参数进行调整,包括:根据每次训练过程所使用的训练样本的单个声音源的语音信号的语音特征和得到的所述训练样本的单个声音源的语音分离结果,构建损失函数;根据所述损失函数,反向传播调整所述编码器的参数和所述解码器的参数
。8.
根据权利要求7所述的方法,其特征在于,所述根据每次训练过程所使用的训练样本的单个声音源的语音信号的语音特征和得到的所述训练样本的单个声音源的语音分离结
果,构建损失函数,包括:针对所述训练样本的每个目标声音源的语音信号的语音特征,根据所述目标声音源的语音信号的语音特征和所述目标声音源的语音分离结果,构建损失函数
。9.
根据权利要求1所述的方法,其特征在于,所述训练样本通过如下方式获取:获取第一语音信号集,所述第一语音信号集中的每条语音信号为单个声音源的语音信号;针对所述第一语音信号集中的每条语音信号,生成多条与所述语音信号对应的音量调整后语音信号,将所述第一语音信号集中的每条语音信号和与所述每条语音信号对应的音量调整后语音信号组成第二语音信号集;从所述第二语音信号集中随机抽取来自
m
个声音源的语音信号,将所述
m
个声音源的语音信号融合叠加,得到所述训练样本,所述
m

[2

n]
中随机抽取的一个数,所述
n
为预设的最大语音信号融合数
。10.
一种语音分离方法,其特征在于,包括:获取待分离语音信号的混合语音特征;将待分离语音信号的混合语音特征输入语音分离模型,输出所述待分离语音信号的单个声音源的语音分离结果,所述语音分离模型包括编码器和解码器,所述语音分离模型根据权利要求1‑9任一项所述的方法训练得到;...

【专利技术属性】
技术研发人员:汤志远黄申商世东
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1