一种声纹识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38470673 阅读:9 留言:0更新日期:2023-08-11 14:47
本发明专利技术公开了一种声纹识别方法、装置、设备及存储介质,可应用于金融领域中的身份验证。包括:获取待识别的实时语音信息,提取实时语音信息的低层声纹特征;将低层声纹特征输入至预训练的声纹特征提取模型中,以提取M条语音信息中每条语音信息的高层声纹特征;对高层声纹特征进行嵌入向量转换处理,得到对应的声纹特征向量;通过预置的损失函数结合梯度反向传播算法对声纹特征向量进行计算,得到最终的目标声纹特征。本申请通过采用transformer网络结合端到端损失函数的模型,得到目标声纹特征,从而更为准确地确定出语音信息所归属的目标说话人,完成金融场景中登录、支付、业务、信贷等场景的身份验证,提高了声纹识别的精度和提取声纹特征的准确性。提取声纹特征的准确性。提取声纹特征的准确性。

【技术实现步骤摘要】
一种声纹识别方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种声纹识别方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,在业务实践中和实验中人们发现,每个人所特有的声纹特征具有唯一性,且在一定时间段内有较稳定、不会丢失也不会被轻易地伪造和假冒的特性。所以,声纹特征识别技术这种独特的优势使其被认为是优越的身份验证技术,使用声纹特征识别技术会使金融业务场景的安全性、便捷性有很大的提升,例如在登录、支付场景、信贷、银行、证券等金融领域的辅助身份验证环节,使得通过声纹识别提取声纹特征来满足用户的各种需求。
[0003]现有技术的声纹识别技术由于语音信号的不稳定性、噪音的干扰或者获取说话人语音能有效用于训练的数据集非常有限,且声纹会因为说话人的心情、年龄以及身体状况等其他不稳定因子的约束影响,让声纹特征的有效性削弱。由于提取说话人语音信号的声纹特征不准确且提取方法不够成熟,使得用户在登录、支付场景、信贷、银行、证券等金融领域的辅助身份验证环节出现偏差,导致验证失败。由此,在进行语音信号的声纹识别过程中识别精准度仍然需要提高。上述现有技术中常用的语音信号声纹识别主要还是基于传统的语音特征提取方法,如:MFCC、FBank等,这样的语音信号声纹识别方法识别精准度仍然不高或过于复杂的模型增加了延时而无法应用于金融场景的身份验证方面,影响用户的体验和感受,造成声纹识别效果欠佳。因此,如何提高金融场景中身份验证的声纹识别过程中识别精准度,提取较高的声纹特征,已成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种声纹识别方法、装置、设备及存储介质,以解决如何提高金融场景中身份验证的声纹识别过程中识别精准度,且提取较高的声纹特征的问题。
[0005]本申请实施例的第一方面提供了一种声纹识别方法,所述声纹识别方法包括:
[0006]获取待识别的实时语音信息,提取所述实时语音信息的低层声纹特征,所述实时语音信息为N个说话人中的每个说话人的M条语音信息;
[0007]将所述低层声纹特征输入至预训练的声纹特征提取模型中,以提取所述M条语音信息中每条语音信息的高层声纹特征;
[0008]对所述高层声纹特征进行嵌入向量转换处理,得到对应的声纹特征向量;
[0009]通过预置的损失函数并结合梯度反向传播算法对所述声纹特征向量进行计算处理,得到最终的目标声纹特征,所述预置的损失函数为通过余弦相似度矩阵计算得到声纹特征向量的损失函数。
[0010]本申请实施例的第二方面提供了一种声纹识别装置,所述声纹识别装置包括:
[0011]获取模块,用于获取待识别的实时语音信息,提取所述实时语音信息的低层声纹特征,所述实时语音信息为N个说话人中的每个说话人的M条语音信息;
[0012]提取模块,用于将所述低层声纹特征输入至预训练的声纹特征提取模型中,以提取所述M条语音信息中每条语音信息的高层声纹特征;
[0013]转换模块,用于对所述高层声纹特征进行嵌入向量转换处理,得到对应的声纹特征向量;
[0014]获得模块,用于通过预置的损失函数并结合梯度反向传播算法对所述声纹特征向量进行计算处理,得到最终的目标声纹特征,所述预置的损失函数为通过余弦相似度矩阵计算得到声纹特征向量的损失函数。
[0015]第三方面,本专利技术实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的声纹识别方法。
[0016]第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的声纹识别方法。
[0017]综上所述,本专利技术提供了一种声纹识别方法、装置、设备及存储介质,可应用于金融领域中的身份验证。获取待识别的实时语音信息,提取实时语音信息的低层声纹特征,且实时语音信息为N个说话人中的每个说话人的M条语音信息,将低层声纹特征输入至预训练的声纹特征提取模型中,以提取M条语音信息中每条语音信息的高层声纹特征,对高层声纹特征进行嵌入向量转换处理,得到对应的声纹特征向量,通过预置的损失函数并结合梯度反向传播算法对声纹特征向量进行计算处理,以得到最终的目标声纹特征,其预置的损失函数为通过余弦相似度矩阵计算得到声纹特征向量的损失函数。因此,本申请通过采用声纹特征提取模型结合端到端损失函数,更好的利用了输出层和输入层中每一节点相关的上下文特征信息,通过预置的损失函数并结合梯度反向传播算法对声纹特征向量进行计算处理,将训练后的声纹特征向量建立相似度矩阵,比较不同说话人声纹特征嵌入向量与所有说话者的质心之间相似度,来增大不同说话人的类间距离,减小相同说话人的类内距离,得到目标声纹特征,从而更为准确地确定出语音信息所归属的目标说话人,完成金融场景中登录、支付、业务、信贷等场景的身份验证,提高了声纹识别的精度,进一步地,提升了特征提取的准确性,达到增强语音声纹识别的效果。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例提供的一种声纹识别方法的一应用环境示意图;
[0020]图2是本专利技术一实施例提供的一种声纹识别方法的流程示意图;
[0021]图3是本专利技术一实施例提供的一种声纹识别方法的部分流程示意图;
[0022]图4是本专利技术一实施例提供的一种声纹识别装置的结构示意图;
[0023]图5是本专利技术一实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]应当理解,当在本专利技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0026]还应当理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0027]如在本专利技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:获取待识别的实时语音信息,提取所述实时语音信息的低层声纹特征,所述实时语音信息为N个说话人中的每个说话人的M条语音信息;将所述低层声纹特征输入至预训练的声纹特征提取模型中,以提取所述M条语音信息中每条语音信息的高层声纹特征;对所述高层声纹特征进行嵌入向量转换处理,得到对应的声纹特征向量;通过预置的损失函数并结合梯度反向传播算法对所述声纹特征向量进行计算处理,得到最终的目标声纹特征,所述预置的损失函数为通过余弦相似度矩阵计算得到声纹特征向量的损失函数。2.如权利要求1所述的声纹识别方法,其特征在于,所述声纹特征提取模型通过如下方式训练:获取大量的待训练说话人语音数据,作为训练数据集;对每个所述待训练说话人语音样本进行预处理,提取每个训练说话人语音样本对应的每一帧所包含的低层声纹特征;将每个训练说话人语音样本对应的每一帧所包含的低层声纹特征输入至引入注意力机制的深度卷积神经网络中,输出高层声纹特征,获得对应的嵌入向量;对每个说话人的M条语音信息得到的对应的嵌入向量进行计算,获取每个说话人对应的嵌入向量平均值的质心,通过余弦相似性计算每条语音的嵌入向量与N个嵌入向量平均值的质心之间的距离,构成相似度矩阵;基于所述相似度矩阵以及预先构建的损失函数计算对应的训练损失,通过所述训练损失结合梯度反向传播算法对所述神经网络模型的各个参数进行迭代更新,以得到声纹特征提取模型。3.如权利要求1所述的声纹识别方法,其特征在于,所述获取待识别的实时语音信息,提取所述实时语音信息的低层声纹特征,包括:获取待识别的实时语音信息,滤除所述实时语音信息中的静音信息和噪声信息,并对不同说话人的语音信息进行标注;通过频谱变换将每个说话人的实时语音信息进行预处理,得到语音信号频谱;根据所述语音信号频谱通过声学处理,得到低层声纹特征,其中,所述低层声纹特征为语音信息的比较冗余的特征,即语音信息的不够精炼的特征。4.如权利要求1所述的声纹识别方法,其特征在于,所述将所述低层声纹特征输入至预训练的声纹特征提取模型中,以提取所述M条语音信息中每条语音信息的高层声纹特征,包括:引入注意力机制,将注意力机制与深度卷积神经网络结合,构建完整的预训练的声纹特征提取模型;将所述低层声纹特征输入至完整的预训练的声纹特征提取模型中,以提取所述M条语音信息中每条语音信息的高层声纹特征,其中,所述高层声纹特征为声纹特征提取模型提取的语音信息的比较准确的特征,即语音信息的精炼的特征。5.如权利要求1所述的声纹识别方法,其特征在于,所述预置的损失函数为通过余弦相似度矩阵计算得到...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁季圣鹏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1