说话人确认模型训练方法、装置及设备制造方法及图纸

技术编号:37613850 阅读:18 留言:0更新日期:2023-05-18 12:05
本发明专利技术提供一种说话人确认模型训练方法、装置及设备,该方法包括:获取一个训练批次中全部语音样本对应的语音特征、以及全部语音样本对应的标签信息;将语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到语音特征对应的目标全局特征和目标局部特征;基于目标全局特征和所述目标局部特征,确定全部语音样本对应的预测信息;根据标签信息和预测信息,更新初始说话人确认模型的模型参数,以得到说话人确认模型。本发明专利技术提供的说话人确认模型训练方法、装置及设备用于使TDNN网络和Transformer网络并行学习,提升说话人确认模型的性能。提升说话人确认模型的性能。提升说话人确认模型的性能。

【技术实现步骤摘要】
说话人确认模型训练方法、装置及设备


[0001]本专利技术涉及文本无关说话人确认
,尤其涉及一种说话人确认模型训练方法、装置及设备。

技术介绍

[0002]目前,在文本无关说话人确认技术中,通常需要对初始说话人确认模型进行训练,以得到说话人确认模型,说话人确认模型用于例如提取两条语音数据各自的特征向量,并基于提取到的特征向量,判断两条语音数据是否来自同一个说话人。
[0003]在相关技术中,初始说话人确认模型中包括串行的时延神经网络(Time Delay Neural Network,TDNN)和转换器(Transformer)网络,在对初始说话人确认模型进行训练的过程中,由于TDNN网络和Transformer网络串行,无法使TDNN网络和Transformer网络并行学习,使得说话人确认模型的性能较差。

技术实现思路

[0004]本专利技术提供一种说话人确认模型训练方法,用以解决现有技术中无法使TDNN网络和Transformer网络并行学习,说话人确认模型的性能较差的缺陷,实现提升说话人确认模型性能的目的。
[0005]第一方面,本专利技术提供一种说话人确认模型训练方法,包括:
[0006]获取一个训练批次中全部语音样本对应的语音特征、以及所述全部语音样本对应的标签信息;
[0007]将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到所述语音特征对应的目标全局特征和目标局部特征;
[0008]基于所述目标全局特征和所述目标局部特征,确定所述全部语音样本对应的预测信息;
[0009]根据所述标签信息和所述预测信息,更新所述初始说话人确认模型的模型参数,以得到说话人确认模型。
[0010]根据本专利技术提供的一种说话人确认模型训练方法,将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到所述语音特征对应的目标全局特征和目标局部特征,包括:
[0011]将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到第一全局特征和第一局部特征;
[0012]将所述第一全局特征输入所述初始说话人确认模型中的第一数据处理网络,得到第二全局特征,所述第一全局特征和所述第二全局特征的维度存在不同,所述第二全局特征和所述第一局部特征的维度相同;
[0013]将所述第二全局特征输入所述局部特征提取网络,得到第二局部特征和所述目标局部特征;
[0014]将第二局部特征输入所述初始说话人确认模型中的第二数据处理网络,得到第三局部特征,所述第二局部特征和所述第三局部特征的维度存在不同;
[0015]将所述第三局部特征输入所述全局特征提取网络,得到目标全局特征,所述第三局部特征和所述第一全局特征的维度相同。
[0016]根据本专利技术提供的一种说话人确认模型训练方法,所述将所述第一全局特征输入所述初始说话人确认模型中的第一数据处理网络,得到第二全局特征,包括:
[0017]通过所述第一数据处理网络,对所述第一全局特征进行上采样处理,得到上采样特征,所述上采样特征和所述第一全局特征的音频帧数维度不同、音频频率维度相同;
[0018]通过所述第一数据处理网络,对所述上采样特征进行卷积处理,得到第一卷积特征,所述第一卷积特征和所述上采样特征的音频帧数维度相同、音频频率维度不同;
[0019]通过所述第一数据处理网络,对所述第一卷积特征进行批归一化处理,得到第一归一化特征;
[0020]通过所述第一数据处理网络,计算所述第一归一化特征和第一预设可调参数的乘积,得到所述第二全局特征。
[0021]根据本专利技术提供的一种说话人确认模型训练方法,所述将第二局部特征输入所述初始说话人确认模型中的第二数据处理网络,得到第三局部特征,包括:
[0022]通过所述第二数据处理网络,对所述第二局部特征进行卷积处理,得到第二卷积特征;所述第二局部特征和所述第二卷积特征的音频频率维度和音频帧数维度均不相同;
[0023]通过所述第二数据处理网络,对所述第二卷积特征进行层归一化处理,得到第二归一化特征;
[0024]通过所述第二数据处理网络,计算所述第二归一化特征和第二预设可调参数的乘积,得到所述第三局部特征。
[0025]根据本专利技术提供的一种说话人确认模型训练方法,所述获取一个训练批次中全部语音样本对应的语音特征,包括:
[0026]提取所述全部语音样本的梅尔频率倒谱系数特征;
[0027]将所述梅尔频率倒谱系数特征,输入所述初始说话人确认模型中的一维卷积层,得到所述语音特征。
[0028]根据本专利技术提供的一种说话人确认模型训练方法,所述基于所述目标全局特征和所述目标局部特征,确定所述全部语音样本对应的预测信息,包括:
[0029]将目标全局特征和所述目标局部特征进行叠加处理,得到融合特征;
[0030]将所述融合特征,输入所述初始说话人确认模型中的注意力统计池化层;
[0031]将所述注意力统计池化层的输出结果,输入所述初始说话人确认模型中的第一批归一化层,得到第三归一化特征;
[0032]将所述第三归一化特征,输入所述初始说话人确认模型中的全连接层;
[0033]将所述全连接层的输出结果,输入所述初始说话人确认模型中的第二批归一化层,得到第四归一化特征;
[0034]将所述第四归一化特征,输入所述初始说话人确认模型中的分类器,得到所述预测信息。
[0035]根据本专利技术提供的一种说话人确认模型训练方法,所述根据所述标签信息和所述
预测信息,更新所述初始说话人确认模型的模型参数,以得到说话人确认模型,包括:
[0036]计算所述标签信息和所述预测信息之间的平滑交叉熵损失值;
[0037]基于所述平滑交叉熵损失值,更新所述初始说话人确认模型的模型参数,以得到说话人确认模型。
[0038]第二方面,本专利技术还提供一种说话人确认模型训练装置,包括:
[0039]获取模块,用于获取一个训练批次中全部语音样本对应的语音特征、以及所述全部语音样本对应的标签信息;
[0040]特征提取模块,用于将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到所述语音特征对应的目标全局特征和目标局部特征;
[0041]确定模块,用于基于所述目标全局特征和所述目标局部特征,确定所述全部语音样本对应的预测信息;
[0042]更新模块,用于根据所述标签信息和所述预测信息,更新所述初始说话人确认模型的模型参数,以得到说话人确认模型。
[0043]根据本专利技术提供的一种说话人确认模型训练装置,特征提取模块具体用于:
[0044]将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到第一全局特征和第一局部特征;
[0045]将所述第一全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人确认模型训练方法,其特征在于,包括:获取一个训练批次中全部语音样本对应的语音特征、以及所述全部语音样本对应的标签信息;将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到所述语音特征对应的目标全局特征和目标局部特征;基于所述目标全局特征和所述目标局部特征,确定所述全部语音样本对应的预测信息;根据所述标签信息和所述预测信息,更新所述初始说话人确认模型的模型参数,以得到说话人确认模型。2.根据权利要求1所述的说话人确认模型训练方法,其特征在于,将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到所述语音特征对应的目标全局特征和目标局部特征,包括:将所述语音特征分别输入至初始说话人确认模型中的全局特征提取网络和局部特征提取网络中,得到第一全局特征和第一局部特征;将所述第一全局特征输入所述初始说话人确认模型中的第一数据处理网络,得到第二全局特征,所述第一全局特征和所述第二全局特征的维度存在不同,所述第二全局特征和所述第一局部特征的维度相同;将所述第二全局特征输入所述局部特征提取网络,得到第二局部特征和所述目标局部特征;将第二局部特征输入所述初始说话人确认模型中的第二数据处理网络,得到第三局部特征,所述第二局部特征和所述第三局部特征的维度存在不同;将所述第三局部特征输入所述全局特征提取网络,得到目标全局特征,所述第三局部特征和所述第一全局特征的维度相同。3.根据权利要求2所述的说话人确认模型训练方法,其特征在于,所述将所述第一全局特征输入所述初始说话人确认模型中的第一数据处理网络,得到第二全局特征,包括:通过所述第一数据处理网络,对所述第一全局特征进行上采样处理,得到上采样特征,所述上采样特征和所述第一全局特征的音频帧数维度不同、音频频率维度相同;通过所述第一数据处理网络,对所述上采样特征进行卷积处理,得到第一卷积特征,所述第一卷积特征和所述上采样特征的音频帧数维度相同、音频频率维度不同;通过所述第一数据处理网络,对所述第一卷积特征进行批归一化处理,得到第一归一化特征;通过所述第一数据处理网络,计算所述第一归一化特征和第一预设可调参数的乘积,得到所述第二全局特征。4.根据权利要求3所述的说话人确认模型训练方法,其特征在于,所述将第二局部特征输入所述初始说话人确认模型中的第二数据处理网络,得到第三局部特征,包括:通过所述第二数据处理网络,对所述第二局部特征进行卷积处理,得到第二卷积特征;所述第二局部特征和所述第二卷积特征的音频频率维度和音频帧数维度均不相同;通过所述第二数据处理网络,对所述第二卷积特征进行层归一化处理,得到第二归一化特征;
通...

【专利技术属性】
技术研发人员:王方圆王溪源徐波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1