一种基于自定义关键词的声纹识别方法技术

技术编号:36941989 阅读:12 留言:0更新日期:2023-03-22 19:03
本发明专利技术提供的一种基于自定义关键词的声纹识别方法,涉及音频识别技术领域。本发明专利技术通过声纹数据标记、模型训练、声纹注册和声纹验证的方法实现了一种低计算量、低功耗、高识别率、无云服务支持的离线、本地声纹识别方法;本发明专利技术使用一种帧级别音频特征比对方法进行音频粗比对是否是同一关键词,在包含声纹训练数据收集、声纹数据注册、用户声纹验证过程中,进行一个低计算量、较高检错率的用户声纹音频粗识别,以达到在使用声纹神经网络模型之前就能够将一些干扰音频剔除在外;使用一种低参数、低计算量的声纹神经网络模型进行本地音频声纹特征提取;本申请设计所有算法模型都可部署在同一、离线、本地的存储介质上,且无需与云服务器进行交互。务器进行交互。务器进行交互。

【技术实现步骤摘要】
一种基于自定义关键词的声纹识别方法


[0001]本专利技术涉及音频识别
,尤其涉及一种基于自定义关键词的声纹识别方法。

技术介绍

[0002]声纹识别是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。声纹识别运用领域广泛,不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。
[0003]现有技术中的声纹模型以及声纹模型训练需求的计算量、参数量十分庞大,无法部署在无云服务下的低功耗芯片级别中。如:申请号为:CN202210158367.0的专利技术专利申请便提供了一种声纹模型的训练、声纹提取方法、装置、设备及存储介质;申请号为:CN202010622080.X的专利技术专利申请便提供了一种声纹模型训练和声纹识别方法、装置、设备及介质;上述方法均无法在低功耗芯片级别的设备中进行离线部署。
[0004]因此,有必要提供一种基于自定义关键词的声纹识别方法来解决上述技术问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提出的一种基于自定义关键词的声纹识别方法,包括声纹数据标记步骤、识别模型训练步骤、声纹注册步骤和声纹验证步骤;
[0006]声纹数据标记步骤:通过收声设备采集用户的初始音频数据,并获取用户对应身份信息;将初始音频数据进行初始音频数据降噪、异样数据排异剔除和身份信息标记,得到带有身份标记信息的模型训练数据;
[0007]识别模型训练步骤:将带有身份标记信息的模型训练数据进行特征提取,将提取到的特征数据输入至神经网络模型中进行相关模型训练,将满足识别精度的模型进行输出,得到声纹识别模型;
[0008]声纹注册步骤:通过与声纹数据标记步骤相同的收声设备采集若干条注册音频数据,并对各注册音频数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断各注册音频数据之间的相似度是否满足阈值需求;若满足,则注册成功并保存对应的声纹注册数据;否则,则注册失败并重新进行注册音频数据采集;其中,所述注册音频数据为同一身份说话人且说话内容为相同关键词;
[0009]声纹验证步骤:通过与声纹数据标记步骤相同的收声设备采集验证音频数据,并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求;若满足,则声纹验证成功;否则声纹验证失败。
[0010]作为更进一步的解决方案,所述收声设备采用

32db的硅麦或者驻极体麦克风,收集的音频数据内容均为清晰的中文语音内容。
[0011]作为更进一步的解决方案,所述异样数据排异剔除通过计算各音频共振峰进行,对各音频的共振峰进行相似度比对,通过排异法剔除相似度低的音频数据。
[0012]作为更进一步的解决方案,所述特征数据为带有身份标记信息的MFCC特征,所述神经网络模型使用带有残差结构的CNN卷积神经网络模型。
[0013]作为更进一步的解决方案,所述神经网络模型还进行了缩减和参数量化,并使用triplet loss进行训练。
[0014]作为更进一步的解决方案,所述声纹注册步骤通过如下具体步骤进行:
[0015]步骤A1:通过与声纹数据标记步骤相同的收声设备采集n条注册音频数据;所述注册音频数据为同一身份说话人且说话内容为相同关键词,注册音频数大于等于三条;
[0016]步骤A2:若已获取n条注册音频数据,则对n条注册音频数据进行MFCC特征提取,得到MFCC特征序列;在帧级别上进行MFCC特征的动态时间规划数据对齐DTW,并计算各注册音频数据与其他除自身外所有注册音频数据之间的距离相似度;
[0017]步骤A3:若n条注册音频数据的欧氏距离阈值通过率低于预设的通过阈值,则存在坏数据,并对坏数据进行剔除;
[0018]步骤A4:剔除与其他除自身外所有注册音频数据的距离相似度最大的数据;重新录入新注册音频数据,并进行步骤A2的距离相似度计算;
[0019]步骤A5:若n条注册音频数据的欧氏距离阈值通过率通过率不低于预设的通过阈值,则进行基于神经网络的声纹特征计算:将各注册音频数据输入神经网络模型,并得到对应的声纹特征序列;
[0020]步骤A6:计算各注册音频数据与其他除自身外所有注册音频数据的基于声纹特征的距离相似度;若n条数据基于声纹特征的距离相似度阈值通过率低于预设的通过阈值,则存在坏数据,并对坏数据进行剔除;
[0021]步骤A7:剔除与其他除自身外所有注册音频数据基于声纹特征的距离相似度最大的数据,重新录入新注册音频数据,并进行步骤A2的距离相似度计算;
[0022]步骤A8:若基于声纹特征的距离相似度阈值通过率不低于预设的通过阈值,则注册成功,保存对应的MFCC特征序列和声纹特征序列。
[0023]作为更进一步的解决方案,所述声纹注册数据包括MFCC特征序列和声纹特征序列。
[0024]作为更进一步的解决方案,所述声纹验证步骤通过如下具体步骤进行:
[0025]步骤B1:通过与声纹数据标记步骤相同的收声设备采集进行验证音频数据录入;此处音频数据若要通过,需求为与注册同一说话人,且同一注册关键词进行验证;
[0026]步骤B2:计算验证音频数据的MFCC特征,并与声纹注册步骤所保存的MFCC特征序列进行一对一比对;
[0027]步骤B3:若验证数据与声纹注册数据的距离阈值通过率不低于预设的通过阈值,则声纹验证成功,并进行基于神经网络的声纹特征计算和比对;
[0028]步骤B4:若验证数据与注册数据的距离阈值通过率低于预设的通过阈值,则声纹验证失败,并认定为非同一注册人;
[0029]步骤B5:对验证音频数据进行基于神经网络的声纹特征计算,并与注册保存的基于神经网络的声纹特征序列进行一对一比对;
[0030]步骤B6:若验证音频数据与声纹注册数据的相似度阈值通过率低于预设的通过阈值,则声纹验证失败,并认定为非同一注册人;
[0031]步骤B7:若验证音频数据与声纹注册数据的相似度阈值通过率不低于预设的通过阈值,则声纹验证成功,完成声纹验证步骤。
[0032]与相关技术相比较,本专利技术提供的一种基于自定义关键词的声纹识别方法具有如下有益效果:
[0033]本专利技术设计的主要创造目的是设计出一种低计算量、低功耗、高识别率、无云服务支持的离线、本地声纹识别方法。本方法主要创新包含:(1)使用一种帧级别音频特征比对方法进行音频粗比对是否是同一关键词,在包含声纹训练数据收集、声纹数据注册、用户声纹验证过程中,进行一个低计算量、较高检错率的用户声纹音频粗识别,以达到在使用声纹神经网络模型之前就能够将一些干扰音频剔除在外。(2)使用一种低参数、低计算量的声纹神经网络模型进行本地音频声纹特征提取。(3)本申请设计所有算法模型都可部署在同一、离线、本地的存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自定义关键词的声纹识别方法,其特征在于,包括声纹数据标记步骤、识别模型训练步骤、声纹注册步骤和声纹验证步骤;声纹数据标记步骤:通过收声设备采集用户的初始音频数据,并获取用户对应身份信息;将初始音频数据进行初始音频数据降噪、异样数据排异剔除和身份信息标记,得到带有身份标记信息的模型训练数据;识别模型训练步骤:将带有身份标记信息的模型训练数据进行特征提取,将提取到的特征数据输入至神经网络模型中进行相关模型训练,将满足识别精度的模型进行输出,得到声纹识别模型;声纹注册步骤:通过与声纹数据标记步骤相同的收声设备采集若干条注册音频数据,并对各注册音频数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断各注册音频数据之间的相似度是否满足阈值需求;若满足,则注册成功并保存对应的声纹注册数据;否则,则注册失败并重新进行注册音频数据采集;其中,所述注册音频数据为同一身份说话人且说话内容为相同关键词;声纹验证步骤:通过与声纹数据标记步骤相同的收声设备采集验证音频数据,并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求;若满足,则声纹验证成功;否则声纹验证失败。2.根据权利要求1所述的一种基于自定义关键词的声纹识别方法,其特征在于,所述收声设备采用

32db的硅麦或者驻极体麦克风,收集的音频数据内容均为清晰的中文语音内容。3.根据权利要求1所述的一种基于自定义关键词的声纹识别方法,其特征在于,所述异样数据排异剔除通过计算各音频共振峰进行,对各音频的共振峰进行相似度比对,通过排异法剔除相似度低的音频数据。4.根据权利要求1所述的一种基于自定义关键词的声纹识别方法,其特征在于,所述特征数据为带有身份标记信息的MFCC特征,所述神经网络模型使用带有残差结构的CNN卷积神经网络模型。5.根据权利要求4所述的一种基于自定义关键词的声纹识别方法,其特征在于,所述神经网络模型还进行了缩减和参数量化,并使用triplet loss进行训练。6.根据权利要求1所述的一种基于自定义关键词的声纹识别方法,其特征在于,所述声纹注册步骤通过如下具体步骤进行:步骤A1:通过与声纹数据标记步骤相同的收声设备采集n条注册音频数据;所述注册音频数据为同一身份说话人且说话内容为相同关键词,注册音频数大于等于三条;步骤A2:若已获取n条注册音频数据,则对n条注册音...

【专利技术属性】
技术研发人员:张毅龚永康
申请(专利权)人:杭州芯声智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1