模型训练方法、身份识别方法、装置及电子设备制造方法及图纸

技术编号:32342693 阅读:11 留言:0更新日期:2022-02-16 18:55
本申请公开了一种模型训练方法、身份识别方法、装置及电子设备。所述方法包括:获取第一训练数据集;将第一训练数据集输入到待训练模型中,获取待训练模型输出的声纹特征向量;将所述声纹特征向量输入到领域分类模型中,根据所述领域分类模型的输出得到当前领域分类损失函数的损失值;将所述声纹特征向量输入到说话人分类模型中,根据所述说话人分类模型的输出得到当前说话人分类损失函数的损失值;根据所述当前领域分类损失函数的损失值和所述当前说话人分类损失函数的损失值,对所述待训练模型进行当前次训练,若所述当前领域分类损失函数的损失值大于目标值,以及所述当前说话人分类损失函数收敛,则将所述待训练模型确定为声纹特征提取模型。声纹特征提取模型。声纹特征提取模型。

【技术实现步骤摘要】
模型训练方法、身份识别方法、装置及电子设备


[0001]本申请属于机器学习
,具体涉及一种模型训练方法、身份识别方法、装置、电子设备及存储介质。

技术介绍

[0002]声音,作为人与生具来的能力,被视为很有前途的一种标识个人身份的特征,越来越受到重视。理论上来说,声纹就像指纹一样,很少会有两个人具有相同的声纹特征,因此,可以通过声纹来进行身份确认。在通过声纹来进行身份确认的过程中,需要对声音的声纹特征进行提取。但是,在基于相关的声纹特征提取模型提取到的声纹特征进行身份识别时,身份识别的准确性还有待提高。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种模型训练方法、身份识别方法、装置、电子设备及存储介质,以实现改善上述问题。
[0004]第一方面,本申请实施例提供了一种声纹特征提取模型训练方法,所述方法包括:获取第一训练数据集,所述第一训练数据集为对训练音频数据集进行特征提取得到;将所述第一训练数据集输入到待训练模型中,获取所述待训练模型输出的声纹特征向量;将所述声纹特征向量输入到领域分类模型中,根据所述领域分类模型的输出得到当前领域分类损失函数的损失值;将所述声纹特征向量输入到说话人分类模型中,根据所述说话人分类模型的输出得到当前说话人分类损失函数的损失值;根据所述当前领域分类损失函数的损失值和所述当前说话人分类损失函数的损失值,对所述待训练模型进行当前次训练,若所述当前领域分类损失函数的损失值大于目标值,以及所述当前说话人分类损失函数收敛,则将所述待训练模型确定为声纹特征提取模型。
[0005]第二方面,本申请实施例提供了一种身份识别方法,所述方法包括:获取待识别用户的第一语音数据;将所述第一语音数据输入到声纹特征提取模型中,获取所述声纹特征提取模型输出的声纹特征向量;将所述声纹特征向量与预设声纹特征向量输入到身份识别模型中,得到所述身份识别模型输出的声纹识别结果,其中,所述预设声纹特征向量为将预录入的语音数据输入到所述声纹特征提取模型中得到;基于所述声纹识别结果,确定所述待识别用户的身份识别是否成功。
[0006]第三方面,本申请实施例提供了一种声纹特征提取模型训练装置,所述装置包括:第一获取单元,用于获取第一训练数据集,所述第一训练数据集为对训练音频数据集进行特征提取得到;第二获取单元,用于将所述第一训练数据集输入到待训练模型中,获取所述待训练模型输出的声纹特征向量;第一确定单元,用于将所述声纹特征向量输入到领域分类模型中,根据所述领域分类模型的输出得到当前领域分类损失函数的损失值;第二确定单元,用于将所述声纹特征向量输入到说话人分类模型中,根据所述说话人分类模型的输出得到当前说话人分类损失函数的损失值;训练单元,用于根据所述当前领域分类损失函
数的损失值以及所述当前说话人分类损失函数的损失值,对所述待训练模型进行当前次训练,若所述当前领域分类损失函数的损失值大于目标值,以及所述当前说话人分类损失函数收敛,则将所述待训练模型确定为声纹特征提取模型。
[0007]第四方面,本申请实施例提供了一种身份识别装置,所述装置包括:数据获取单元,用于获取待识别用户的第一语音数据;向量获取单元,用于将所述第一语音数据输入到声纹特征提取模型中,获取所述声纹特征提取模型输出的声纹特征向量;结果获取单元,用于将所述声纹特征向量与预设声纹特征向量输入到身份识别模型中,得到所述身份识别模型输出的声纹识别结果,其中,所述预设声纹特征向量为将预录入的语音数据输入到所述声纹特征提取模型中得到;处理单元,用于基于所述声纹识别结果,确定所述待识别用户的身份识别结果。
[0008]第五方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
[0009]第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
[0010]第七方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述方法的步骤。
[0011]本申请实施例提供了一种声纹特征提取模型训练方法、身份识别方法、装置、电子设备及存储介质,通过将待训练模型输出的声纹特征向量分别输入到领域分类模型和说话人分类模型中,得到当前领域分类损失函数的损失值和当前说话人分类损失函数的损失值,再基于当前领域分类损失函数的损失值和当前说话人分类损失函数的损失值对待训练模型进行当前次训练,若当前领域分类损失函数的损失值大于目标值,以及当前说话人分类损失函数收敛,则得到声纹特征提取模型。通过上述方法,通过领域分类损失函数的损失值和说话人分类损失函数的损失值对待训练模型进行训练,可以使得领域分类损失越来越大,说话人分类损失越来越小,并且在领域分类损失函数的损失值大于目标值,以及说话人分类损失函数收敛的情况下,得到声纹特征提取模型,以使得声纹特征提取模型可以在优化说话人分类损失的基础上,更好的模糊不同领域之间的差距,进而通过声纹特征提取模型提取到的声纹特征向量的领域界限越来越模糊,说话人的分辨能力越来越强,进而基于声纹特征提取模型提取到的声纹特征向量进行身份识别,可以提高身份识别的准确性。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1示出了本申请一实施例提出的一种声纹特征提取模型训练方法和身份识别方法的应用场景示意图;
[0014]图2示出了本申请一实施例提出的一种声纹特征提取模型训练方法的流程图;
[0015]图3示出了本申请一实施例提出的一种提取Fbank特征的过程示意图;
[0016]图4示出了本申请一实施例提出的一种声纹特征提取模型训练的示意图;
[0017]图5示出了本申请另一实施例提出的一种身份识别方法的流程图;
[0018]图6示出了本申请又一实施例提出的一种身份识别方法的流程图;
[0019]图7示出了本申请再一实施例提出的一种身份识别方法的流程图;
[0020]图8示出了本申请再一实施例中身份识别模型训练的流程图;
[0021]图9示出了本申请又一实施例提出的一种身份识别方法的流程图;
[0022]图10示出了本申请实施例提出的一种声纹特征提取模型训练装置的结构框图;
[0023]图11示出了本申请实施例提出的一种身份识别装置的结构框图;
[0024]图12示出了本申请实施例提出的一种身份识别装置的结构框图;
[0025]图13示出了本申请实施中的用于执行根据本申请实施例的声纹特征提取模型训练方法和身份识别方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹特征提取模型训练方法,其特征在于,所述方法包括:获取第一训练数据集,所述第一训练数据集为对训练音频数据集进行特征提取得到;将所述第一训练数据集输入到待训练模型中,获取所述待训练模型输出的声纹特征向量;将所述声纹特征向量输入到领域分类模型中,根据所述领域分类模型的输出得到当前领域分类损失函数的损失值;将所述声纹特征向量输入到说话人分类模型中,根据所述说话人分类模型的输出得到当前说话人分类损失函数的损失值;根据所述当前领域分类损失函数的损失值和所述当前说话人分类损失函数的损失值,对所述待训练模型进行当前次训练,若所述当前领域分类损失函数的损失值大于目标值,以及所述当前说话人分类损失函数收敛,则将所述待训练模型确定为声纹特征提取模型。2.根据权利要求1所述的方法,其特征在于,将所述声纹特征向量输入到领域分类模型中,根据所述领域分类模型的输出得到当前领域分类损失函数的损失值,包括:将当前声纹特征向量输入所述领域分类模型,得到所述当前声纹特征向量的第一分类结果;根据所述当前声纹特征向量的第一分类结果和所述当前声纹特征向量得到所述当前领域分类损失函数的损失值。3.根据权利要求1所述的方法,其特征在于,所述将所述声纹特征向量输入到说话人分类模型中,根据所述说话人分类模型的输出得到当前说话人分类损失函数的损失值,包括:将当前声纹特征向量输入所述说话人分类模型,得到所述当前声纹特征向量的第二分类结果;根据所述当前声纹特征向量的第二分类结果和所述当前声纹特征向量对应的说话人标签,得到所述当前说话人分类损失函数的损失值。4.根据权利要求1所述的方法,其特征在于,所述领域分类损失函数为:其中,X
i
表示第i个输入所述待训练模型的特征向量,G
f
表示所述待训练模型的输出,G
d
表示所述领域分类模型的输出,d
i
表示第i个特征向量的加权值。5.根据权利要求1所述的方法,其特征在于,所述说话人分类损失函数为:其中,X
i
表示第i个输入所述待训练模型的特征向量,y
i
表示第i个特征向量对应的说话人标签,G
f
表示所述待训练模型的输出,G
y
表示所述说话人分类模型的输出。6.一种身份识别方法,其特征在于,所述方法包括:获取待识别用户的第一语音数据;将所述第一语音数据输入到声纹特征提取模型中,获取所述声纹特征提取模型输出的声纹特征向量;将所述声纹特征向量与预设声纹特征向量输入到身份识别模型中,得到所述身份识别
模型输出的声纹识别结果,其中,所述预设声纹特征向量为将预录入的语音数据输入到所述声纹特征提取模型中得到;基于所述声纹识别结果,确定所述待识别用户的身份识别是否成功。7.根据权利要求6所述的方法,其特征在于,所述声纹识别结果为似然分布数值,所述基于所述声纹识别结果,确定所述待识别用户的身份识别是否成功,包括:若所述似...

【专利技术属性】
技术研发人员:孟庆林王洪斌刘敏陈燕丽
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1