用于说话者验证的广义负对数似然损失制造技术

技术编号:32853627 阅读:27 留言:0更新日期:2022-03-30 19:20
用于说话者验证的系统和方法包括通过最小化广义负对数似然函数来优化神经网络,包括接收包括多个说话者中的每个的多个表达的音频样本的训练批,从音频样本提取特征以生成一批特征,使用神经网络处理该批特征以生成被配置为按说话者来区分音频样本的多个嵌入向量,至少部分地基于嵌入向量来计算训练批的广义负对数似然损失(GNLL)值,以及修改神经网络的权重以减小GNLL值。计算GNLL可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。心向量。心向量。

【技术实现步骤摘要】
用于说话者验证的广义负对数似然损失


[0001]根据一个或多个实施例,本申请总体上涉及音频信号处理,并且更特别地,例如,涉及用于训练和/或实现用于说话者验证的音频分析系统的系统和方法。

技术介绍

[0002]生物测定认证在各种电子系统中用于任务,诸如认证支付交易中的用户和账户信息、限制对个人电子设备的访问、以及控制对一个或多个物理位置的访问。生物测定方面的改进已经允许在使用诸如指纹标识、面部识别、虹膜扫描、和语音识别之类的技术的个人设备(例如,移动电话、可穿戴设备、智能扬声器)中更多地采用生物测定认证。然而,诸如硬件和处理限制以及其中可以使用这些设备的广泛的各种用例和环境之类的因素可能使得安全且可靠的生物测定认证具有挑战性。
[0003]随着诸如智能扬声器之类的语音交互设备的激增和免提语音控制应用的普及,对语音认证的需求正在增加。与诸如指纹匹配或虹膜扫描之类的其他生物测定技术相比,语音生物测定认证系统具有相对高的错误接受率(FAR)和错误拒绝率(FRR)。语音交互设备可以用于进一步降低语音生物测定认证的可靠性和安全性的各种环境中。在受控的安静环境中,语音生物测定的可靠性可以达到可接受的水平,但是当语音控制设备在嘈杂环境中操作时,可靠性下降。在许多场景中,添加昂贵的硬件或阻碍免提、语音控制应用的用户体验的解决方案是不期望的。因此,当在嘈杂的环境中与移动设备一起使用时和/或与需要高水平的安全性和可靠性的应用一起使用时,语音认证仍然具有挑战性。
[0004]鉴于前述内容,本领域中存在对于当在各种设备、应用和环境中使用时安全且可靠的改进的语音生物测定系统和方法的持续需要。

技术实现思路

[0005]本公开涉及用于说话者验证的系统和方法,包括结合广义负对数似然损失(GNLL)函数的改进的训练系统和方法。在各种实施例中,GNLL函数用于有效的训练过程中,以相对于常规方法改进说话者验证模型的训练。所公开的实施例可以用于改进文本相关或文本无关的语音生物测定解决方案的性能,并且还可以应用于面部标识和其他生物测定模态以改进鲁棒性。本公开提供了一种鲁棒的解决方案,其适合于诸如平板电脑、移动电话、膝上型计算机等之类的各种设备,从而在真实环境中提供具有改进的对噪声的鲁棒性和改进的FAR和FRR性能的语音生物测定。
[0006]在各种实施例中,一种方法包括:接收音频样本的训练批,所述音频样本的训练批包括多个说话者中的每个的多个表达(例如,第一数量的说话者和每个说话者的第二数量的表达);从音频样本提取特征以生成一批特征;使用神经网络处理所述一批特征以生成多个嵌入向量,所述多个嵌入向量被配置为按说话者来区分音频样本;至少部分地基于嵌入向量来计算训练批的广义负对数似然损失(GNLL)值;以及修改神经网络的权重以减小GNLL值。计算GNLL可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。修
改神经网络的权重以减小GNLL值可以包括使用反向传播来优化神经网络。
[0007]该方法还可以包括注册过程,该注册过程包括接收包括与已知用户相关联的话音的注册音频信号,标识注册音频信号中的话音段,从话音段提取用户特征,将提取的用户特征输入到神经网络以生成多个用户嵌入向量,以及存储根据用户嵌入向量计算的质心向量和用户标识符。
[0008]该方法还可以包括说话者认证过程,该说话者认证过程包括接收包括来自目标说话者的话音的目标音频信号,从目标音频信号提取目标特征,通过神经网络处理目标特征以生成至少一个目标嵌入向量,以及通过将目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定目标说话者是否与用户标识符相关联。在一些实施例中,确定目标说话者是否与用户标识符相关联包括计算测量目标嵌入向量与存储的质心向量之间的相似性的置信度分数。计算置信度分数可以包括计算目标嵌入向量和质心向量的内积并应用σ(sigmoid)函数。在一些实施例中,确定目标说话者是否与用户标识符相关联还包括存储多个用户标识符和对应的质心向量,其中多个用户标识符中的每个与不同的说话者相关联,以及部分地基于目标嵌入向量来自与对应的质心向量相同的说话者的可能性来计算多个用户标识符中的每个的置信度分数。
[0009]在各种实施例中,该方法还包括将附加余量并入到嵌入向量中,附加余量被配置为分离嵌入向量中的说话者类的嵌入。嵌入向量可以是单位向量。
[0010]在一些实施例中,一种系统包括逻辑设备,所述逻辑设备被配置为使用广义负对数似然损失(GNLL)函数来训练神经网络,所述逻辑设备被配置为执行逻辑,所述逻辑包括:接收音频样本的训练批,所述音频样本的训练批包括多个说话者中的每个的多个表达(例如,第一数量的说话者和每个说话者的第二数量的音频样本);从音频样本提取特征以生成一批特征;使用神经网络处理所述一批特征以生成嵌入向量,所述嵌入向量被配置为按说话者来区分音频样本;至少部分地基于嵌入向量来计算训练批的广义负对数似然损失(GNLL)值;以及修改神经网络的权重以减小GNLL值。计算GNLL还可以包括至少部分地基于嵌入向量为多个说话者中的每个生成质心向量。在一些实施例中,修改神经网络的权重以减小GNLL值包括使用反向传播来优化神经网络。
[0011]在一些实施例中,一种系统包括存储部件和逻辑设备,所述逻辑设备被配置为通过执行包括执行注册过程的逻辑来验证说话者的身份。注册过程可以包括接收包括与已知用户相关联的话音的注册音频信号,标识注册音频信号中的话音段,从话音段提取用户特征,通过神经网络处理提取的用户特征,以生成多个用户嵌入向量,以及存储根据用户嵌入向量计算的质心向量和用户标识符。
[0012]在一些实施例中,逻辑设备还被配置为执行包括执行说话者认证过程的逻辑,该说话者认证过程包括接收包括来自目标说话者的话音的目标音频信号,从目标音频信号提取目标特征,通过神经网络处理目标特征以生成至少一个目标嵌入向量,以及通过将目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定目标说话者是否与用户标识符相关联。在一些实施例中,确定目标说话者是否与用户标识符相关联包括通过计算目标嵌入向量和质心向量的内积并应用σ函数来计算测量目标嵌入向量和存储的质心向量之间的相似性的置信度分数。在一些实施例中,确定目标说话者是否与用户标识符相关联还包括存储多个用户标识符和对应的质心向量,其中多个用户标识符中的每个与唯一说
话者相关联,以及部分地基于目标嵌入向量来自与对应的质心向量相同的说话者的可能性来计算多个用户标识符中的每个的置信度分数。
[0013]本公开的范围由权利要求限定,权利要求通过引用并入本部分中。通过考虑一个或多个实施例的以下详细描述,将向本领域技术人员提供对本公开的更完整的理解,以及其附加优点的实现。将参考将首先简要描述的附图的附页。
附图说明
[0014]参考以下附图和下面的详细描述,可以更好地理解本公开的方面及其优点。应当理解,相同的参考标号用于标识在一个或多个附图中图示的相同元件,其中在附图中的示出是出于说明本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:接收音频样本的训练批,所述音频样本的训练批包括多个说话者中的每个的多个表达;从所述音频样本提取特征以生成一批特征;使用神经网络处理所述一批特征以生成被配置为按说话者来区分音频样本的多个嵌入向量;至少部分地基于所述嵌入向量来计算所述训练批的广义负对数似然损失(GNLL)值;以及修改所述神经网络的权重以减小所述GNLL值。2.根据权利要求1所述的方法,其中计算所述GNLL还包括至少部分地基于所述嵌入向量,为多个说话者中的每个生成质心向量。3.根据权利要求1所述的方法,其中修改所述神经网络的权重以减小GNLL值包括使用反向传播来优化所述神经网络。4.根据权利要求1所述的方法,其中所述音频样本的训练批包括第一数量的说话者和每个说话者的第二数量的音频样本。5.根据权利要求1所述的方法,还包括注册过程,所述注册过程包括:接收包括与已知用户相关联的话音的注册音频信号;标识所述注册音频信号中的话音段;从所述话音段提取用户特征;将提取的用户特征输入到所述神经网络以生成多个用户嵌入向量;以及存储根据所述用户嵌入向量计算的质心向量和用户标识符。6.根据权利要求1所述的方法,还包括说话者认证过程,所述说话者认证过程包括:接收包括来自目标说话者的话音的目标音频信号;从所述目标音频信号提取目标特征;通过所述神经网络处理所述目标特征以生成至少一个目标嵌入向量;以及通过将所述目标嵌入向量和与用户标识符相关联的存储的质心向量进行比较来确定所述目标说话者是否与所述用户标识符相关联。7.根据权利要求6所述的方法,其中确定所述目标说话者是否与用户标识符相关联包括:计算测量所述目标嵌入向量与所述存储的质心向量之间的相似性的置信度分数。8.根据权利要求7所述的方法,其中计算置信度分数包括计算目标嵌入向量和所述质心向量的内积并应用σ函数。9.根据权利要求6所述的方法,其中确定所述目标说话者是否与用户标识符相关联还包括:存储多个用户标识符和对应的质心向量,其中所述多个用户标识符中的每个与不同的说话者相关联;以及部分地基于所述目标嵌入向量来自与所述对应的质心向量相同的说话者的可能性来计算所述多个用户标识符中的每个的置信度分数。10.根据权利要求1所述的方法,还包括将附加余量并入到所述嵌入向量中,所述附加余量被配置为分离所述嵌入向量中的说话者类的嵌入。
11.根据权利要求10所述的方法,其中所述嵌入向量包括具有所述附加余量的单位向量。12.根据权利要求9所述的方法,其中计算置信度分数包括通过使用说话者的样本计算质心来计算每批数据的总损失。1...

【专利技术属性】
技术研发人员:S
申请(专利权)人:辛纳普蒂克斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1