一种基于自定义关键词的声纹识别方法技术

技术编号：36941989 阅读：12 留言：0更新日期：2023-03-22 19:03

本发明专利技术提供的一种基于自定义关键词的声纹识别方法，涉及音频识别技术领域。本发明专利技术通过声纹数据标记、模型训练、声纹注册和声纹验证的方法实现了一种低计算量、低功耗、高识别率、无云服务支持的离线、本地声纹识别方法；本发明专利技术使用一种帧级别音频特征比对方法进行音频粗比对是否是同一关键词，在包含声纹训练数据收集、声纹数据注册、用户声纹验证过程中，进行一个低计算量、较高检错率的用户声纹音频粗识别，以达到在使用声纹神经网络模型之前就能够将一些干扰音频剔除在外；使用一种低参数、低计算量的声纹神经网络模型进行本地音频声纹特征提取；本申请设计所有算法模型都可部署在同一、离线、本地的存储介质上，且无需与云服务器进行交互。务器进行交互。务器进行交互。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自定义关键词的声纹识别方法

[0001]本专利技术涉及音频识别
，尤其涉及一种基于自定义关键词的声纹识别方法。

技术介绍

[0002]声纹识别是生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。声纹识别运用领域广泛，不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。
[0003]现有技术中的声纹模型以及声纹模型训练需求的计算量、参数量十分庞大，无法部署在无云服务下的低功耗芯片级别中。如：申请号为：CN202210158367.0的专利技术专利申请便提供了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质；申请号为：CN202010622080.X的专利技术专利申请便提供了一种声纹模型训练和声纹识别方法、装置、设备及介质；上述方法均无法在低功耗芯片级别的设备中进行离线部署。
[0004]因此，有必要提供一种基于自定义关键词的声纹识别方法来解决上述技术问题。

技术实现思路

[0005]为解决上述技术问题，本专利技术提出的一种基于自定义关键词的声纹识别方法，包括声纹数据标记步骤、识别模型训练步骤、声纹注册步骤和声纹验证步骤；
[0006]声纹数据标记步骤：通过收声设备采集用户的初始音频数据，并获取用户对应身份信息；将初始音频数据进行初始音频数据降噪、异样数据排异剔除和身份信息标记，得到带有身份标记信息的模型训练数据；
[0007]识别模...

【技术保护点】

【技术特征摘要】
1.一种基于自定义关键词的声纹识别方法，其特征在于，包括声纹数据标记步骤、识别模型训练步骤、声纹注册步骤和声纹验证步骤；声纹数据标记步骤：通过收声设备采集用户的初始音频数据，并获取用户对应身份信息；将初始音频数据进行初始音频数据降噪、异样数据排异剔除和身份信息标记，得到带有身份标记信息的模型训练数据；识别模型训练步骤：将带有身份标记信息的模型训练数据进行特征提取，将提取到的特征数据输入至神经网络模型中进行相关模型训练，将满足识别精度的模型进行输出，得到声纹识别模型；声纹注册步骤：通过与声纹数据标记步骤相同的收声设备采集若干条注册音频数据，并对各注册音频数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比，判断各注册音频数据之间的相似度是否满足阈值需求；若满足，则注册成功并保存对应的声纹注册数据；否则，则注册失败并重新进行注册音频数据采集；其中，所述注册音频数据为同一身份说话人且说话内容为相同关键词；声纹验证步骤：通过与声纹数据标记步骤相同的收声设备采集验证音频数据，并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比，判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求；若满足，则声纹验证成功；否则声纹验证失败。2.根据权利要求1所述的一种基于自定义关键词的声纹识别方法，其特征在于，所述收声设备采用
‑
32db的硅麦或者驻极体麦克风，收集的音频数据内容均为清晰的中文语音内容。3.根据权利要求1所述的一种基于自定义关键词的声纹识别方法，其特征在于，所述异样数据排异剔除通过计算各音频共振峰进行，对各音频的共振峰进行相似度比对，通过排异法剔除相似度低的音频数据。4.根据权利要求1所述的一种基于自定义关键词的声纹识别方法，其特征在于，所述特征数据为带有身份标记信息的MFCC特征，所述神经网络模型使用带有残差结构的CNN卷积神经网络模型。5.根据权利要求4所述的一种基于自定义关键词的声纹识别方法，其特征在于，所述神经网络模型还进行了缩减和参数量化，并使用triplet loss进行训练。6.根据权利要求1所述的一种基于自定义关键词的声纹识别方法，其特征在于，所述声纹注册步骤通过如下具体步骤进行：步骤A1：通过与声纹数据标记步骤相同的收声设备采集n条注册音频数据；所述注册音频数据为同一身份说话人且说话内容为相同关键词，注册音频数大于等于三条；步骤A2：若已获取n条注册音频数据，则对n条注册音...

【专利技术属性】
技术研发人员：张毅，龚永康，
申请(专利权)人：杭州芯声智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人