声纹识别方法技术

技术编号：39821076 阅读：30 留言：0更新日期：2023-12-22 19:40

本申请公开了一种声纹识别方法

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别方法、系统、电子设备及存储介质

[0001]本专利技术涉及声纹识别
，尤其涉及一种声纹识别方法
、
系统
、
电子设备及存储介质
。

技术介绍

[0002]声纹是指带有语音信息的声波频谱，是一种生物特征，具有唯一性和稳定性的特点
。
利用声纹识别说话人身份的技术被称为声纹识别技术，该技术是目前流行的身份认证技术之一
。
[0003]然而，现实生活中最常见的识别方式是跨场景识别，即，用户倾向于在安静环境下注册，注册时发音相对平稳清晰，而在实际验证时，可能处于各种复杂场景，用户的配合度也更低，导致声音特征由于受到环境变化影响致使声纹识别性能下降
。
[0004]因此，现有技术中在进行声纹识别的过程中，存在由于验证环境变化影响致使声纹识别性能下降的问题
。

技术实现思路

[0005]有鉴于此，有必要提供一种声纹识别方法
、
系统
、
电子设备及存储介质，用以解决现有技术中在进行声纹识别的过程中，存在的由于验证环境变化影响致使声纹识别性能下降的问题
。
[0006]为了解决上述问题，本专利技术提供一种声纹识别方法，应用于跨场景识别，包括：
[0007]获取语音数据，并基于感知小波包熵变换方法提取语音数据的
PWPE
特征向量；
[0008]构建
CBAM
‑
Res2Net
‑
TD...

【技术保护点】

【技术特征摘要】
1.
一种声纹识别方法，应用于跨场景识别，其特征在于，包括：获取语音数据，并基于感知小波包熵变换方法提取所述语音数据的
PWPE
特征向量；构建
CBAM
‑
Res2Net
‑
TDNN
模型，并基于所述
CBAM
‑
Res2Net
‑
TDNN
模型对所述
PWPE
特征向量进行数据处理，以对所述语音数据对应的说话人进行分类；其中，所述
CBAM
‑
Res2Net
‑
TDNN
模型包括
CBAM
‑
Res2Net
模块
、
统计池化层和损失函数层
。2.
根据权利要求1所述的声纹识别方法，其特征在于，所述基于感知小波包熵变换方法提取所述语音数据的
PWPE
特征向量，包括：构造
WPT
分解树；根据人耳听觉滤波器组模型，对所述
WPT
分解树进行剪枝操作，得到
PWPT
分解树；通过小波阈值去噪法，对所述
PWPT
分解树中的子帧进行降噪处理，得到降噪系数；计算所述降噪系数的非归一化香农熵系数，以确定所述语音数据的
PWPE
特征向量
。3.
根据权利要求1所述的声纹识别方法，其特征在于，所述基于所述
CBAM
‑
Res2Net
‑
TDNN
模型对所述
PWPE
特征向量进行数据处理，以对所述语音数据对应的说话人进行分类，包括：基于所述
CBAM
‑
Res2Net
模块获取所述
PWPE
特征向量的局部特征，并对所述局部特征进行多尺度聚合特征映射，得到多尺度聚合特征；基于所述统计池化层对所述多尺度聚合特征执行基于一种带有多头注意力机制的统计池化，并由所述损失函数层对所述语音数据对应的说话人进行分类
。4.
根据权利要求3所述的声纹识别方法，其特征在于，所述基于所述
CBAM
‑
Res2Net
模块包括
CBAM
模块和
Res2Net block
模块；将所述
CBAM
模块插入至所述
Res2Net block
模块的尾部，得到所述
CBAM
‑
Res2Net
模块
。5.
根据权利要求3所述的声纹识别方法，其特征在于，所述语音数据包括标准语音数据和实时语音数据；所述由所述损失函数层对所述语音数据对应的说话人进行分类，包括：基于所述损失函数层，计算所述标准语音数据和所述实时语音数据之间差异，得到损失值；设置损失值阈值；根据所述损失值和所述损失值阈值，确定所述标准语音数据和所述实时语音数据是否为同一人
。6.
根据权利要求1所述的声纹识别方法，其特征在于，所述
CBAM

【专利技术属性】
技术研发人员：张华军，王淑琪，邓小涛，王征华，张雪涛，肖志成，苏义鑫，
申请(专利权)人：武汉大晟极科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人