声纹识别模型构建方法及相关产品技术

技术编号:37963120 阅读:10 留言:0更新日期:2023-06-30 09:38
本申请提供了一种声纹识别模型构建方法及相关产品,方法包括:获取至少两个用户的多个语音样本,提取其对应的多个声纹特征向量,再根据多个声纹特征向量构建用于表征每个用户的任一个目标语音样本和自身的第一中心点的相似度最大的同类损失函数以及其和自身的第二中心点的相似度最小的非同类损失函数,第一中心点和第二中心点分别表征目标语音样本的各个第一候选语音样本的第一相似度权重与各个第二候选语音样本的第二相似度权重和自身的声纹特征向量乘积的和,再根据同类损失函数和非同类损失函数得到目标损失函数,最后,根据目标损失函数对声纹识别模型的参数进行更新,得到训练后的声纹识别模型。可见,能够提高声纹识别模型的准确率。高声纹识别模型的准确率。高声纹识别模型的准确率。

【技术实现步骤摘要】
声纹识别模型构建方法及相关产品


[0001]本申请属于互联网产业的一般数据处理
,具体涉及一种声纹识别模型构建方法及相关产品。

技术介绍

[0002]在进行声纹识别模型构建时,当使用用户电话号码或用户号为标签进行语音样本训练集合的构建时,无法确保获取到的用户的多个语音都完全属于该用户的声音,非本用户语音的语音样本会被打上是本用户的标签,从而导致训练集合中存在错误用户标签的语音样本。
[0003]目前,通过训练好的声纹识别模型来比较某个用户标签下的不同语音片段,剔除掉相似度小于某个阈值的样本,现有的声纹识别模型往往不能区分这种错误标签,导致模型在训练构建时受到错误标签样本的影响,导致识别效果不佳。或者样本存在错误标签时需要使用额外手段,例如模型过滤、用户工标注等提出具有错误标签的语音样本,导致模型构建的时间和成本增加。

技术实现思路

[0004]本申请提供了一种声纹识别模型构建方法及相关产品,以期通过在声纹识别模型构建的过程中,根据语音样本之间的相似性来确定样本中心,提高声纹识别模型的准确度,提升识别效果,节约模型构建时间和成本,提升用户体验。
[0005]第一方面,本申请实施例提供了一种声纹识别模型构建方法,所述方法包括:
[0006]获取至少两个用户的多个语音样本,所述多个语音样本包括所述至少两个用户中每个用户的至少三个语音样本;
[0007]提取所述多个语音样本对应的多个声纹特征向量;
[0008]根据所述多个声纹特征向量构建同类损失函数,所述同类损失函数用于表征所述至少两个用户中每个用户的任一个目标语音样本和自身的第一中心点的相似度最大,所述第一中心点用于表征所述目标语音样本的各个第一候选语音样本的第一相似度权重和自身的声纹特征向量乘积的和,所述第一候选语音样本是指所述目标语音样本对应的用户的全部语音样本中除所述目标语音样本之外的语音样本,所述第一相似度权重是指所述目标语音样本的单个所述第一候选语音样本的相似度在所述目标语音样本的全部第一候选语音样本的相似度之和中的比重,所述第一相似度是指所述目标语音样本和单个所述第一候选语音样本之间的相似度;
[0009]根据所述多个声纹特征向量构建非同类损失函数,所述非同类损失函数用于表征至少两个用户中每个用户的任一个目标语音样本和自身的第二中心点的相似度最小,所述第二中心点用于表征所述目标语音样本的各个第二候选语音样本的第二相似度权重和自身的声纹特征向量乘积的和,所述第二候选语音样本是指除所述目标语音样本对应的用户之外的其他用户的语音样本,所述第二相似度权重是指所述目标语音样本的单个所述第二
候选语音样本的相似度在所述目标语音样本的全部第二候选语音样本的相似度之和中的比重,所述第二相似度是指所述目标语音样本和单个所述第二候选语音样本之间的相似度;
[0010]根据所述同类损失函数和所述非同类损失函数得到目标损失函数,所述目标损失函数用于表征所述至少两个用户中每个用户的至少三个语音样本中的正确语音样本和错误语音样本,所述正确语音样本用于表征当前语音样本与用户的对应关系正确,所述错误语音样本用于表征当前语音样本与用户的对应关系不正确;
[0011]根据所述目标损失函数对声纹识别模型的参数进行更新,得到训练后的声纹识别模型。
[0012]第二方面,本申请实施例提供了一种声纹识别模型构建装置,所述装置包括:
[0013]获取单元,用于获取至少两个用户的多个语音样本,所述多个语音样本包括所述至少两个用户中每个用户的至少三个语音样本;
[0014]提取单元,用于提取所述多个语音样本对应的多个声纹特征向量;
[0015]第一构建单元,用于根据所述多个声纹特征向量构建同类损失函数,所述同类损失函数用于表征所述至少两个用户中每个用户的任一个目标语音样本和自身的第一中心点的相似度最大,所述第一中心点用于表征所述目标语音样本的各个第一候选语音样本的第一相似度权重和自身的声纹特征向量乘积的和,所述第一候选语音样本是指所述目标语音样本对应的用户的全部语音样本中除所述目标语音样本之外的语音样本,所述第一相似度权重是指所述目标语音样本的单个所述第一候选语音样本的相似度在所述目标语音样本的全部第一候选语音样本的相似度之和中的比重,所述第一相似度是指所述目标语音样本和单个所述第一候选语音样本之间的相似度;
[0016]第二构建单元,用于根据所述多个声纹特征向量构建非同类损失函数,所述非同类损失函数用于表征至少两个用户中每个用户的任一个目标语音样本和自身的第二中心点的相似度最小,所述第二中心点用于表征所述目标语音样本的各个第二候选语音样本的第二相似度权重和自身的声纹特征向量乘积的和,所述第二候选语音样本是指除所述目标语音样本对应的用户之外的其他用户的语音样本,所述第二相似度权重是指所述目标语音样本的单个所述第二候选语音样本的相似度在所述目标语音样本的全部第二候选语音样本的相似度之和中的比重,所述第二相似度是指所述目标语音样本和单个所述第二候选语音样本之间的相似度;
[0017]损失函数生成单元,用于根据所述同类损失函数和所述非同类损失函数得到目标损失函数,所述目标损失函数用于表征所述至少两个用户中每个用户的至少三个语音样本中的正确语音样本和错误语音样本,所述正确语音样本用于表征当前语音样本与用户的对应关系正确,所述错误语音样本用于表征当前语音样本与用户的对应关系不正确;
[0018]模型训练单元,用于根据所述目标损失函数对声纹识别模型的参数进行更新,得到训练后的声纹识别模型。
[0019]第三方面,本申请实施例提供了一种电子设备,包括应用处理器、通信模块、存储器以及一个或多个程序,所述应用处理器通过内部通信总线与所述存储器、所述通信模块通信连接,所述一个或多个程序被存储在所述存储器中,并且被配置由所述应用处理器执行,所述一个或多个程序包括用于执行如本申请实施例第一方面所述方法中的步骤的指
令。
[0020]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被应用处理器执行时实现本申请实施例第一方面所述方法的步骤。
[0021]第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被应用处理器执行时实现本申请实施例第一方面所述方法的步骤。
[0022]可以看出,本申请实施例中,首先,获取至少两个用户的多个语音样本,多个语音样本包括至少两个用户中每个用户的至少三个语音样本,接着,提取多个语音样本对应的多个声纹特征向量,之后,根据多个声纹特征向量构建同类损失函数,同类损失函数用于表征至少两个用户中每个用户的任一个目标语音样本和自身的第一中心点的相似度最大,第一中心点用于表征目标语音样本的各个第一候选语音样本的第一相似度权重和自身的声纹特征向量乘积的和,第一候选语音样本是指目标语音样本对应的用户的全部语音样本中除目标语音样本之外的语音样本,第一相似度权重是指目标语音样本的单个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型构建方法,其特征在于,所述方法包括:获取至少两个用户的多个语音样本,所述多个语音样本包括所述至少两个用户中每个用户的至少三个语音样本;提取所述多个语音样本对应的多个声纹特征向量;根据所述多个声纹特征向量构建同类损失函数,所述同类损失函数用于表征所述至少两个用户中每个用户的任一个目标语音样本和自身的第一中心点的相似度最大,所述第一中心点用于表征所述目标语音样本的各个第一候选语音样本的第一相似度权重和自身的声纹特征向量乘积的和,所述第一候选语音样本是指所述目标语音样本对应的用户的全部语音样本中除所述目标语音样本之外的语音样本,所述第一相似度权重是指所述目标语音样本的单个所述第一候选语音样本的相似度在所述目标语音样本的全部第一候选语音样本的相似度之和中的比重,所述第一相似度是指所述目标语音样本和单个所述第一候选语音样本之间的相似度;根据所述多个声纹特征向量构建非同类损失函数,所述非同类损失函数用于表征至少两个用户中每个用户的任一个目标语音样本和自身的第二中心点的相似度最小,所述第二中心点用于表征所述目标语音样本的各个第二候选语音样本的第二相似度权重和自身的声纹特征向量乘积的和,所述第二候选语音样本是指除所述目标语音样本对应的用户之外的其他用户的语音样本,所述第二相似度权重是指所述目标语音样本的单个所述第二候选语音样本的相似度在所述目标语音样本的全部第二候选语音样本的相似度之和中的比重,所述第二相似度是指所述目标语音样本和单个所述第二候选语音样本之间的相似度;根据所述同类损失函数和所述非同类损失函数得到目标损失函数,所述目标损失函数用于表征所述至少两个用户中每个用户的至少三个语音样本中的正确语音样本和错误语音样本,所述正确语音样本用于表征当前语音样本与用户的对应关系正确,所述错误语音样本用于表征当前语音样本与用户的对应关系不正确;根据所述目标损失函数对声纹识别模型的参数进行更新,得到训练后的声纹识别模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个声纹特征向量构建同类损失函数,包括:分别计算所述至少两个用户中同一用户的不同声纹特征向量之间的相似度,得到所述至少两个用户的第一相似度矩阵;根据所述第一相似度矩阵计算所述至少两个用户中每个用户的各个语音样本与自身的全部第一候选语音样本中每个第一候选语音样本的第一相似度权重,得到所述至少两个用户的第一相似度权重矩阵;根据所述第一相似度权重矩阵和所述第一声纹特征向量矩阵,得到所述至少两个用户的第一中心点矩阵;根据所述第一声纹特征向量矩阵和所述第一中心点矩阵,构建所述同类损失函数。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一声纹特征向量矩阵和所述第一中心点矩阵,构建所述同类损失函数,包括:确定是否存在所述至少两个用户的历史全局中心向量矩阵;若是,则根据所述第一中心点矩阵对所述历史全局中心向量矩阵进行更新,得到更新
后的全局中心向量矩阵;根据所述第一相似度权重矩阵和更新后的全局中心向量矩阵,得到所述至少两个用户的更新后的第一中心点矩阵;根据所述第一声纹特征向量矩阵和更新后的第一中心点矩阵,得到所述同类损失函数。4.根据权利要求3所述的方法,其特征在于,所述确定是否存在所述至少两个用户的历史全局中心向量矩阵之后,所述方法还包括:若否,则获取预先设置的第一超参数和第二超参数;根据所述第一声纹特征向量矩阵、所述第一中心点矩阵、所述第一超参数和所述第二超参数,构建所述同类损失函数。5.根据权利要求2所述的方法,其特征在于,所述分别计算所述至少两个用户中同一用户的不同声纹特征向量之间的相似度,得到所述至少两个用户的第一相似度矩阵,包括针对所述至少两个用户中的每个用户的每个语音样本执行以下操作:确定当前用户的当前语音样本为目标语音样本;确定所述目标...

【专利技术属性】
技术研发人员:余治伦邹晶晶徐伟林昊张文锋王福海
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1