【技术实现步骤摘要】
说话人信息提取模型的训练方法、装置和计算机设备
本申请涉及到声纹识别领域,特别是涉及到说话人信息提取模型的训练方法、装置和计算机设备。
技术介绍
声纹识别,是一种提取能够唯一代表说话人身份信息的技术,分为文本相关和文本无关两种情况。文本相关是指说话人必须说指定内容的话才会被识别。文本无关的说话人识别是指不需要说特定内容,只要有说话声音就会识别。一般基于监督学习的方法来训练模型。此外还有开集和闭集之分,主要是针对模型的识别范围来说,开集是指声纹识别模型可识别的对象不限制在训练数据集内,而闭集是指声纹识别模型只能识别训练集中出现的人。实际应用中主要用的是以开集对应的应用场景为主,则需要构建一个泛化能力强的声纹提取模型,但依据现有技术,需要大量的带有说话人标签的数据,且每个说话人的音频数据都要有足够时长的声音,以通过增大数据集的数据量,提高声纹识别模型的泛化能力,数据集越大泛化能力越好,但这意味着超高的成本且计算量大超大,所以现有声纹识别网络的泛化能力不能较好地满足使用需求。
技术实现思路
本申请的主要目的为提 ...
【技术保护点】
1.一种说话人信息提取模型的训练方法,其特征在于,包括:/n将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;/n获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数 ...
【技术特征摘要】
1.一种说话人信息提取模型的训练方法,其特征在于,包括:
将语音合成系统与语音识别系统,通过所述说话人信息提取模型关联为训练体系,其中,所述语音合成系统包括依次连接的文本处理网络和音频恢复网络,所述语音识别系统包括依次连接的音频处理网络和文本恢复网络,所述说话人信息提取模型分别与所述音频恢复网络关联,以及与所述音频处理网络关联;
获取所述音频处理网络处理训练集中的第一数据对的语音数据得到的音频处理结果,获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息,获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量,其中,所述训练集由语音数据和文本数据形成的数据对组成,所述第一数据对为训练集中的任意数据对,所述剩余数据信息包括说话人的声纹信息;
从所述音频处理结果中去除所述剩余数据信息,得到第一高维向量;
通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛,其中,所述损失函数为所述第一高维向量和第二高维向量的空间距离;
训练收敛后,固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合;
将所述音频处理网络和所述音频恢复网络组合成处理音频的网络,将所述文本处理网络和所述文本恢复网络组合成处理文本的网络;
在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合;
将所述第四参量集合下的说话人信息提取模型,作为预训练的说话人信息提取模型。
2.根据权利要求1所述的说话人信息提取模型的训练方法,其特征在于,所述音频恢复网络包括依次连接的第一全连接层和RNN-DECNN计算层,所述在固定所述第一参量集合的状态下,通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型至收敛,以获取所述音频恢复网络对应的第三参量集合和所述说话人信息提取模型对应的第四参量集合的步骤,包括:
将所述第一高维向量输入所述音频恢复网络的全连接层,得到第一计算结果;
将所述第一计算结果与所述剩余数据信息汇合,得到第二计算结果;
将所述第二计算结果输入所述音频恢复网络的RNN-DECNN计算层,得到述第一高维向量对应的恢复数据;
判断所述损失函数的值达到最小时,所述恢复数据是否与所述语音数据一致;
若是,则判定通过所述损失函数训练所述处理音频的网络和所述说话人信息提取模型已收敛;
固定训练收敛时,所述音频恢复网络对应的参数集合为第三参量集合,所述说话人信息提取模型对应的参数集合为第四参量集合。
3.根据权利要求2所述的说话人信息提取模型的训练方法,其特征在于,所述说话人信息提取模型包括依次连接的可解释卷积滤波器、深度卷积层和第二全连接层,所述获取所述说话人信息提取模型提取所述语音数据对应的文本内容信息后的剩余数据信息的步骤,包括:
将所述语音数据输入所述可解释卷积滤波器,得到所述语音数据对应的特征矩阵;
将所述特征矩阵依次输入所述深度卷积层,从所述特征矩阵中提取所述语音数据对应的文本内容信息之外的说话人特征信息,其中,所述说话人特征信息包括声纹信息;
将所述说话人特征信息输入所述第二全连接层,得到所述说话人特征信息的向量;
将所述说话人特征信息的向量作为所述剩余数据信息。
4.根据权利要求1所述的说话人信息提取模型的训练方法,其特征在于,所述通过损失函数在所述训练集上训练所述音频处理网络、所述文本处理网络和所述说话人信息提取模型,至所述损失函数达最小值时训练收敛的步骤,包括:
通过所述训练集中各数据对经由所述音频处理网络、所述文本处理网络和所述说话人信息提取模型运算后的结果,最小化所述损失函数;
判断所述损失函数的函数值的变化趋势是否不再继续下降;
若是,则判定所述损失函数达最小值,所述第一高维向量和第二高维向量在高维空间的对齐,判定所述音频处...
【专利技术属性】
技术研发人员:徐泓洋,太荣鹏,温平,
申请(专利权)人:深圳市友杰智新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。