【技术实现步骤摘要】
用于说话人识别的网络模型训练方法、装置及存储介质
[0001]本专利技术涉及语音识别
,具体是涉及用于说话人识别的网络模型训练方法、装置及存储介质。
技术介绍
[0002]说话人识别是验证输入话语(语音信号)是否属于特定说话人的任务。语音信号由说话人情感、口音(音素)和语言等多种内在成分组成。这些内在因素的不确定性,尤其是语音内容的不确定性,会影响系统的识别性能。因此,说话人嵌入的提取不能只考虑说话人标签。受说话人自适应技术在自动语音识别(ASR)中应用的启发,多任务学习(MTL)策略被提出来学习包含在多个相关任务中的语音信息,以帮助提高主任务(说话人识别)的泛化能力。近些年,对抗学习等策略被引入到多任务框架中,可以在语音信息使用方面发挥两者的优势。许多研究表明在帧级鼓励音素信息与段级抑制音素信息都是有效的。然而在许多实际情况下,获得同时具有说话人标签和音素标签的域内理想数据集是非常昂贵且不灵活的。而当在音素辨别子网(音素辨别子网用于辅助说话人网络模型对说话人进行分类训练)中引入跨域ASR数据集或跨语言ASR数据集时, ...
【技术保护点】
【技术特征摘要】
1.一种用于说话人识别的网络模型训练方法,其特征在于,包括:将说话人样本数据集输入到多任务网络模型中,提取所述多任务网络模型中的说话人分类子网模型中设定层所输出的第一结果,所述说话人分类子网模型用于说话人分类训练;将与所述说话人样本数据集所对应的跨域的音素样本数据集输入到所述多任务网络模型中,提取所述多任务网络中的音素分类子网模型中设定层所输出的第二结果,所述音素分类子网模型中的设定层与所述说话人分类子网模型中的设定层相对应,所述音素分类子网模型用于音素分类训练;对所述第一结果和所述第二结果应用最大均值差异算法,得到所述第一结果和所述第二结果所对应的差异损失值;依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。2.如权利要求1所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据添加了所述差异损失值的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:获取所述说话人样本数据集所对应的说话人样本身份标签;依据所述说话人子网模型,得到训练的说话人嵌入模型;依据所述说话人样本数据集和所述说话人嵌入模型,得到预测的说话人身份标签;计算所述说话人样本身份标签和预测的所述说话人身份标签之间的身份标签差异;获取所述音素样本数据集所对应的音素样本标签;依据所述音素样本数据集和所述音素分类子网模型,得到预测的所述音素标签;计算所述音素样本标签和预测的所述音素标签之间的音素差异;将所述身份标签差异、所述差异损失值、所述音素差异作为新的总损失,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型。3.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:将所述身份标签差异、所述差异损失值、所述音素差异进行加权计算,得到所述网络模型所对应的损失总值;依据所述损失总值对所述网络模型进行训练,得到训练之后的所述网络模型。4.如权利要求2所述的用于说话人识别的网络模型训练方法,其特征在于,所述依据所述身份标签差异、所述差异损失值、所述音素差异,对说话人分类子网模型和音素分类子网模型所在的所述多任务网络模型进行训练,得到训练之后的所述网络模型,包括:依据两个所述音素分类子网模型,得到所述音素分类子网模型中的帧级音素分类子网络和段级音素分类子网络;依据所述音素样本数据集和所述帧级音素分类子网络,得到预测的所述音素标签中的音素第一标签;依据所述音素样本数据集和所述段级音素分类子网络,得到预测的所述音素标签中的
音素第二标签;计算所述音素差异中的所述音素样本标签和预测的所述音素第一标签之间的音素第一差异;计算所述音素差异中的所述音素样本标签和预测的所述音素第...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。