一种声纹识别方法、装置、设备及存储介质制造方法及图纸

技术编号：38470673 阅读：9 留言：0更新日期：2023-08-11 14:47

本发明专利技术公开了一种声纹识别方法、装置、设备及存储介质，可应用于金融领域中的身份验证。包括：获取待识别的实时语音信息，提取实时语音信息的低层声纹特征；将低层声纹特征输入至预训练的声纹特征提取模型中，以提取M条语音信息中每条语音信息的高层声纹特征；对高层声纹特征进行嵌入向量转换处理，得到对应的声纹特征向量；通过预置的损失函数结合梯度反向传播算法对声纹特征向量进行计算，得到最终的目标声纹特征。本申请通过采用transformer网络结合端到端损失函数的模型，得到目标声纹特征，从而更为准确地确定出语音信息所归属的目标说话人，完成金融场景中登录、支付、业务、信贷等场景的身份验证，提高了声纹识别的精度和提取声纹特征的准确性。提取声纹特征的准确性。提取声纹特征的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹识别方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种声纹识别方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的发展，在业务实践中和实验中人们发现，每个人所特有的声纹特征具有唯一性，且在一定时间段内有较稳定、不会丢失也不会被轻易地伪造和假冒的特性。所以，声纹特征识别技术这种独特的优势使其被认为是优越的身份验证技术，使用声纹特征识别技术会使金融业务场景的安全性、便捷性有很大的提升，例如在登录、支付场景、信贷、银行、证券等金融领域的辅助身份验证环节，使得通过声纹识别提取声纹特征来满足用户的各种需求。
[0003]现有技术的声纹识别技术由于语音信号的不稳定性、噪音的干扰或者获取说话人语音能有效用于训练的数据集非常有限，且声纹会因为说话人的心情、年龄以及身体状况等其他不稳定因子的约束影响，让声纹特征的有效性削弱。由于提取说话人语音信号的声纹特征不准确且提取方法不够成熟，使得用户在登录、支付场景、信贷、银行、证券等金融领域的辅助身份验证环节出现偏差，导致验证失败。由此，在进行语音信号的声纹识别过程中识别精准度仍然需要提高。上述现有技术中常用的语音信号声纹识别主要还是基于传统的语音特征提取方法，如：MFCC、FBank等，这样的语音信号声纹识别方法识别精准度仍然不高或过于复杂的模型增加了延时而无法应用于金融场景的身份验证方面，影响用户的体验和感受，造成声纹识别效果欠佳。因此，如何提高金融场景中身份验证的声纹识别过程中识别精准度，提取较高的声纹特征，已成为本领域技...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法，其特征在于，包括：获取待识别的实时语音信息，提取所述实时语音信息的低层声纹特征，所述实时语音信息为N个说话人中的每个说话人的M条语音信息；将所述低层声纹特征输入至预训练的声纹特征提取模型中，以提取所述M条语音信息中每条语音信息的高层声纹特征；对所述高层声纹特征进行嵌入向量转换处理，得到对应的声纹特征向量；通过预置的损失函数并结合梯度反向传播算法对所述声纹特征向量进行计算处理，得到最终的目标声纹特征，所述预置的损失函数为通过余弦相似度矩阵计算得到声纹特征向量的损失函数。2.如权利要求1所述的声纹识别方法，其特征在于，所述声纹特征提取模型通过如下方式训练：获取大量的待训练说话人语音数据，作为训练数据集；对每个所述待训练说话人语音样本进行预处理，提取每个训练说话人语音样本对应的每一帧所包含的低层声纹特征；将每个训练说话人语音样本对应的每一帧所包含的低层声纹特征输入至引入注意力机制的深度卷积神经网络中，输出高层声纹特征，获得对应的嵌入向量；对每个说话人的M条语音信息得到的对应的嵌入向量进行计算，获取每个说话人对应的嵌入向量平均值的质心，通过余弦相似性计算每条语音的嵌入向量与N个嵌入向量平均值的质心之间的距离，构成相似度矩阵；基于所述相似度矩阵以及预先构建的损失函数计算对应的训练损失，通过所述训练损失结合梯度反向传播算法对所述神经网络模型的各个参数进行迭代更新，以得到声纹特征提取模型。3.如权利要求1所述的声纹识别方法，其特征在于，所述获取待识别的实时语音信息，提取所述实时语音信息的低层声纹特征，包括：获取待识别的实时语音信息，滤除所述实时语音信息中的静音信息和噪声信息，并对不同说话人的语音信息进行标注；通过频谱变换将每个说话人的实时语音信息进行预处理，得到语音信号频谱；根据所述语音信号频谱通过声学处理，得到低层声纹特征，其中，所述低层声纹特征为语音信息的比较冗余的特征，即语音信息的不够精炼的特征。4.如权利要求1所述的声纹识别方法，其特征在于，所述将所述低层声纹特征输入至预训练的声纹特征提取模型中，以提取所述M条语音信息中每条语音信息的高层声纹特征，包括：引入注意力机制，将注意力机制与深度卷积神经网络结合，构建完整的预训练的声纹特征提取模型；将所述低层声纹特征输入至完整的预训练的声纹特征提取模型中，以提取所述M条语音信息中每条语音信息的高层声纹特征，其中，所述高层声纹特征为声纹特征提取模型提取的语音信息的比较准确的特征，即语音信息的精炼的特征。5.如权利要求1所述的声纹识别方法，其特征在于，所述预置的损失函数为通过余弦相似度矩阵计算得到...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，季圣鹏，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人