声纹识别模型的训练方法、声纹识别方法、装置及设备制造方法及图纸

技术编号:35839836 阅读:24 留言:0更新日期:2022-12-03 14:11
本发明专利技术实施例涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备,涉及语音识别领域,通过迭代执行对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定第一对比正对和对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,并确定第二对比正对;根据所述第一对比正对、第二对比正对和对比负对对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型;即本发明专利技术的实施例通过额外引入的说话人嵌入队列,选取最近邻正实例来构成额外的对比正对,使得训练出的声纹识别模型准确性更高。高。高。

【技术实现步骤摘要】
声纹识别模型的训练方法、声纹识别方法、装置及设备


[0001]本专利技术涉及语音识别领域,尤其涉及一种声纹识别模型的训练方法、声纹识别方法、装置及设备。

技术介绍

[0002]声纹识别是一种将语音输入到声纹识别模型中,模型判断该语音是否为指定说话人的技术,在车载应用、语音唤醒、人机交流和智能家居等场景中有着广泛的应用。
[0003]目前,普遍基于对比学习生成图像表征( Simple Framework for Contrastive Learning of Visual Representations,简称SimCLR)方法来获得声纹识别模型,该方法是将同一段语音切分成两段互不重叠的子语音,来自同一段语音的子语音被认为是正对,来自不同段语音的子语音被认为是负对,然后利用正对、负对进行模型的训练。
[0004]但是,因为正对语音都是来自同一语音,说话人的语速和情感等必然会比较单一,这极大限制了正对语音的多样性,此外,正对语音的通道信息和语义信息存在相似性,从而会让模型认为只要通道信息和语义信息相似,那么就是同一说话人。也就是说,目前训练出的声纹识别模型准确性有待提高。

技术实现思路

[0005]本专利技术的实施例提供了一种声纹识别模型的训练方法、声纹识别方法、装置及设备,以解决目前训练出的声纹识别模型准确性有待提高的技术问题。
[0006]第一方面,本专利技术的实施例提供了声纹识别模型的训练方法,包括:获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
[0007]作为本专利技术的一实施例,所述对所述当前语音数据子集中的语音数据进行预处理,获得语音片段,包括:对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;对所述分割语音片段进行数据增强处理,获得所述语音片段。
[0008]作为本专利技术的一实施例,所述预设条件是预设损失函数收敛;其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一
对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。
[0009]作为本专利技术的一实施例,所述角质原型损失函数L
ap
如下:所述余弦距离损失函数L
cos
如下:其中,N表示当前语音数据子集中的语音数据的数量,z
i,1
表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z
i,2
表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z
j,2
表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是温度系数,e
i,1
表示z
i,1
对应的最近邻正实例,e
i,2
表示z
i,2
对应的最近邻正实例。
[0010]作为本专利技术的一实施例,所述方法还包括:将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史说话人嵌入。
[0011]作为本专利技术的一实施例,所述针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,包括:确定每个说话人嵌入与所述预设说话人嵌入队列中各历史说话人嵌入的余弦相似度;确定余弦相似度最大的历史说话人嵌入为所述最近邻正实例。
[0012]第二方面,本专利技术的实施例提供一种声纹识别方法,所述方法基于第一方面任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述方法包括:获取待识别语音数据;将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
[0013]第三方面,本专利技术的实施例提供一种声纹识别模型的训练装置,包括数据模块和训练模块;其中,所述数据模块用于获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;所述训练模块用于迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、所述最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。
[0014]第四方面,本专利技术的实施例提供一种声纹识别装置,所述装置基于第一方面任一项所述的声纹识别模型的训练方法所获得的声纹识别模型;所述装置包括获取模块和处理模块;所述获取模块,用于获取待识别语音数据;所述处理模块,用于将所述待识别语音数据输入到所述声纹识别模型中,输出对应的说话人。
[0015]第五方面,本专利技术的实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一项所述的声纹识别模型的训练方法或第二方面所述的声纹识别方法的步骤。
[0016]第六方面,本专利技术的实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的声纹识别模型的训练方法或第二方面所述的声纹识别方法的步骤。
[0017]本专利技术的实施例提供的声纹识别模型的训练方法、声纹识别方法、装置及设备,通过获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型的训练方法,其特征在于,包括:获取语音数据集,并将所述语音数据集中的语音数据划分为多个语音数据子集;迭代执行以下步骤,直至满足预设条件,并确定当前深度残差网络模型为训练好的声纹识别模型:从所述多个语音数据子集中确定当前语音数据子集,并对所述当前语音数据子集中的语音数据进行预处理,获得语音片段;确定来自于同一语音数据的语音片段构成第一对比正对,确定来自于不同语音数据的语音片段构成对比负对;将每个语音片段输入到上一迭代获得的深度残差网络模型中,获得对应的说话人嵌入;针对每个说话人嵌入,从预设说话人嵌入队列中确定对应的最近邻正实例,其中,所述预设说话人嵌入队列包括历史说话人嵌入,所述最近邻正实例是与所述说话人嵌入相似度最大的历史说话人嵌入;确定所述说话人嵌入对应的语音片段、最近邻正实例对应的历史语音片段构成第二对比正对;根据所述第一对比正对、第二对比正对和对比负对,对所述上一迭代获得的深度残差网络模型进行训练,获得当前深度残差网络模型。2.根据权利要求1所述的训练方法,其特征在于,所述对所述当前语音数据子集中的语音数据进行预处理,获得语音片段,包括:对所述当前语音数据子集中的每个语音数据进行分割处理,获得分割语音片段;对所述分割语音片段进行数据增强处理,获得所述语音片段。3.根据权利要求2所述的训练方法,其特征在于,所述预设条件是预设损失函数收敛;其中,所述预设损失函数为角质原型损失函数和余弦距离损失函数的加权和,所述角质原型损失函数根据第一对比正对之间的距离和对比负对之间的距离确定,所述余弦距离损失函数根据第二对比正对之间的距离确定。4.根据权利要求3所述的训练方法,其特征在于,所述角质原型损失函数L
ap
如下:所述余弦距离损失函数L
cos
如下:其中,N表示当前语音数据子集中的语音数据的数量,z
i,1
表示来自于第i个语音数据的第1个语音片段对应的说话人嵌入,z
i,2
表示来自于第i个语音数据的第2个语音片段对应的说话人嵌入;z
j,2
表示来自于第j个语音数据的第2个语音片段对应的说话人嵌入;τ是温度系数,e
i,1
表示z
i,1
对应的最近邻正实例,e
i,2
表示z
i,2
对应的最近邻正实例。5.根据权利要求1

4任一项所述的训练方法,其特征在于,所述方法还包括:将当前迭代获得的说话人嵌入写入到所述预设说话人嵌入队列的队尾,并从所述预设
说话人嵌入队列的队首依次删除与所述说话人嵌入对应数量的历史...

【专利技术属性】
技术研发人员:刘艳张传飞张天昊魏丽芳陈松路殷绪成
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1