用于说话者验证的广义负对数似然损失制造技术

技术编号:32853627 阅读:36 留言:0更新日期:2022-03-30 19:20
用于说话者验证的系统和方法包括通过最小化广义负对数似然函数来优化神经网络,包括接收包括多个说话者中的每个的多个表达的音频样本的训练批,从音频样本提取特征以生成一批特征,使用神经网络处理该批特征以生成被配置为按说话者来区分音频样本的多个嵌入向量,至少部分地基于嵌入向量来计算训练批的广义负对数似然损失(GNLL)值,以及修改神经网络的权重以减小GNLL值。计算GNLL可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。心向量。心向量。

【技术实现步骤摘要】
用于说话者验证的广义负对数似然损失


[0001]根据一个或多个实施例,本申请总体上涉及音频信号处理,并且更特别地,例如,涉及用于训练和/或实现用于说话者验证的音频分析系统的系统和方法。

技术介绍

[0002]生物测定认证在各种电子系统中用于任务,诸如认证支付交易中的用户和账户信息、限制对个人电子设备的访问、以及控制对一个或多个物理位置的访问。生物测定方面的改进已经允许在使用诸如指纹标识、面部识别、虹膜扫描、和语音识别之类的技术的个人设备(例如,移动电话、可穿戴设备、智能扬声器)中更多地采用生物测定认证。然而,诸如硬件和处理限制以及其中可以使用这些设备的广泛的各种用例和环境之类的因素可能使得安全且可靠的生物测定认证具有挑战性。
[0003]随着诸如智能扬声器之类的语音交互设备的激增和免提语音控制应用的普及,对语音认证的需求正在增加。与诸如指纹匹配或虹膜扫描之类的其他生物测定技术相比,语音生物测定认证系统具有相对高的错误接受率(FAR)和错误拒绝率(FRR)。语音交互设备可以用于进一步降低语音生物测定认证的可靠性和安全性的各种环境中。在受控本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:接收音频样本的训练批,所述音频样本的训练批包括多个说话者中的每个的多个表达;从所述音频样本提取特征以生成一批特征;使用神经网络处理所述一批特征以生成被配置为按说话者来区分音频样本的多个嵌入向量;至少部分地基于所述嵌入向量来计算所述训练批的广义负对数似然损失(GNLL)值;以及修改所述神经网络的权重以减小所述GNLL值。2.根据权利要求1所述的方法,其中计算所述GNLL还包括至少部分地基于所述嵌入向量,为多个说话者中的每个生成质心向量。3.根据权利要求1所述的方法,其中修改所述神经网络的权重以减小GNLL值包括使用反向传播来优化所述神经网络。4.根据权利要求1所述的方法,其中所述音频样本的训练批包括第一数量的说话者和每个说话者的第二数量的音频样本。5.根据权利要求1所述的方法,还包括注册过程,所述注册过程包括:接收包括与已知用户相关联的话音的注册音频信号;标识所述注册音频信号中的话音段;从所述话音段提取用户特征;将提取的用户特征输入到所述神经网络以生成多个用户嵌入向量;以及存储根据所述用户嵌入向量计算的质心向量和用户标识符。6.根据权利要求1所述的方法,还包括说话者认证过程,所述说话者认证过程包括:接收包括来自目标说话者的话音的目标音频信号;从所述目标音频信号提取目标特征;通过所述神经网络处理所述目标特征以生成至少一个目标嵌入向量;以及通过将所述目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定所述目标说话者是否与所述用户标识符相关联。7.根据权利要求6所述的方法,其中确定所述目标说话者是否与用户标识符相关联包括:计算测量所述目标嵌入向量与所述存储的质心向量之间的相似性的置信度分数。8.根据权利要求7所述的方法,其中计算置信度分数包括计算目标嵌入向量和所述质心向量的内积并应用σ函数。9.根据权利要求6所述的方法,其中确定所述目标说话者是否与用户标识符相关联还包括:存储多个用户标识符和对应的质心向量,其中所述多个用户标识符中的每个与不同的说话者相关联;以及部分地基于所述目标嵌入向量来自与所述对应的质心向量相同的说话者的可能性来计算所述多个用户标识符中的每个的置信度分数。10.根据权利要求1所述的方法,还包括将附加余量并入到所述嵌入向量中,所述附加余量被配置为分离所述嵌入向量中的说话者类的嵌入。
11.根据权利要求10所述的方法,其中所述嵌入向量包括具有所述附加余量的单位向量。12.根据权利要求9所述的方法,其中计算置信度分数包括通过使用说话者的样本计算质心来计算每批数据的总损失。1...

【专利技术属性】
技术研发人员:S
申请(专利权)人:辛纳普蒂克斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1