声纹识别方法技术

技术编号:39821076 阅读:30 留言:0更新日期:2023-12-22 19:40
本申请公开了一种声纹识别方法

【技术实现步骤摘要】
声纹识别方法、系统、电子设备及存储介质


[0001]本专利技术涉及声纹识别
,尤其涉及一种声纹识别方法

系统

电子设备及存储介质


技术介绍

[0002]声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点

利用声纹识别说话人身份的技术被称为声纹识别技术,该技术是目前流行的身份认证技术之一

[0003]然而,现实生活中最常见的识别方式是跨场景识别,即,用户倾向于在安静环境下注册,注册时发音相对平稳清晰,而在实际验证时,可能处于各种复杂场景,用户的配合度也更低,导致声音特征由于受到环境变化影响致使声纹识别性能下降

[0004]因此,现有技术中在进行声纹识别的过程中,存在由于验证环境变化影响致使声纹识别性能下降的问题


技术实现思路

[0005]有鉴于此,有必要提供一种声纹识别方法

系统

电子设备及存储介质,用以解决现有技术中在进行声纹识别的过程中,存在的由于验证环境变化影响致使声纹识别性能下降的问题

[0006]为了解决上述问题,本专利技术提供一种声纹识别方法,应用于跨场景识别,包括:
[0007]获取语音数据,并基于感知小波包熵变换方法提取语音数据的
PWPE
特征向量;
[0008]构建
CBAM

Res2Net

TDNN
模型,并基于
CBAM

Res2Net

TDNN
模型对
PWPE
特征向量进行数据处理,以对语音数据对应的说话人进行分类;
[0009]其中,
CBAM

Res2Net

TDNN
模型包括
CBAM

Res2Net
模块

统计池化层和损失函数层

[0010]进一步地,基于感知小波包熵变换方法提取语音数据的
PWPE
特征向量,包括:
[0011]构造
WPT
分解树;
[0012]根据人耳听觉滤波器组模型,对
WPT
分解树进行剪枝操作,得到
PWPT
分解树;
[0013]通过小波阈值去噪法,对
PWPT
分解树中的子帧进行降噪处理,得到降噪系数;
[0014]计算降噪系数的非归一化香农熵系数,以确定语音数据的
PWPE
特征向量

[0015]进一步地,基于
CBAM

Res2Net

TDNN
模型对
PWPE
特征向量进行数据处理,以对语音数据对应的说话人进行分类,包括:
[0016]基于
CBAM

Res2Net
模块获取
PWPE
特征向量的局部特征,并对局部特征进行多尺度聚合特征映射,得到多尺度聚合特征;
[0017]基于统计池化层对多尺度聚合特征执行基于一种带有多头注意力机制的统计池化,并由损失函数层对语音数据对应的说话人进行分类

[0018]进一步地,基于
CBAM

Res2Net
模块包括
CBAM
模块和
Res2Net block
模块;
[0019]将
CBAM
模块插入至
Res2Net block
模块的尾部,得到
CBAM

Res2Net
模块

[0020]进一步地,语音数据包括标准语音数据和实时语音数据;由损失函数层对语音数据对应的说话人进行分类,包括:
[0021]基于损失函数层,计算标准语音数据和实时语音数据之间差异,得到损失值;
[0022]设置损失值阈值;
[0023]根据损失值和损失值阈值,确定标准语音数据和实时语音数据是否为同一人

[0024]进一步地,
CBAM

Res2Net

TDNN
模型包括四层
CBMA

Res2Net block
层;
[0025]CBAM

Res2Net

TDNN
模型包括多头注意力统计池化结构

[0026]进一步地,构建
CBAM

Res2Net

TDNN
模型,还包括:
[0027]获取语音数据样本及其对应的说话人样本,并将语音数据样本和说话人样本分为训练集和验证集;
[0028]根据训练集对初始
CBAM

Res2Net

TDNN
模型进行迭代训练,得到训练后的
CBAM

Res2Net

TDNN
模型;
[0029]根据训练后的
CBAM

Res2Net

TDNN
模型,获取验证集中的验证语音数据样本对应的预测说话人样本;
[0030]基于
AAM

softmax
损失函数,确定预测说话人样本和验证集中的验证说话人样本之间的损失值;
[0031]更新训练后的
CBAM

Res2Net

TDNN
模型的网络参数,设置随机梯度下降法优化算法以确定
CBAM

Res2Net

TDNN
模型;
[0032]其中,随机梯度下降法优化算法以损失值为目标函数

[0033]为了解决上述问题,本专利技术还提供一种声纹识别系统,应用于跨场景识别,包括:
[0034]语音数据获取模块,用于获取语音数据;
[0035]PWPE
特征向量提取模块,用于基于感知小波包熵变换方法提取语音数据的
PWPE
特征向量;
[0036]声纹识别模块,用于构建
CBAM

Res2Net

TDNN
模型,并基于
CBAM

Res2Net

TDNN
模型对
PWPE
特征向量进行数据处理,以对语音数据对应的说话人进行分类;
[0037]其中,
CBAM

Res2Net
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种声纹识别方法,应用于跨场景识别,其特征在于,包括:获取语音数据,并基于感知小波包熵变换方法提取所述语音数据的
PWPE
特征向量;构建
CBAM

Res2Net

TDNN
模型,并基于所述
CBAM

Res2Net

TDNN
模型对所述
PWPE
特征向量进行数据处理,以对所述语音数据对应的说话人进行分类;其中,所述
CBAM

Res2Net

TDNN
模型包括
CBAM

Res2Net
模块

统计池化层和损失函数层
。2.
根据权利要求1所述的声纹识别方法,其特征在于,所述基于感知小波包熵变换方法提取所述语音数据的
PWPE
特征向量,包括:构造
WPT
分解树;根据人耳听觉滤波器组模型,对所述
WPT
分解树进行剪枝操作,得到
PWPT
分解树;通过小波阈值去噪法,对所述
PWPT
分解树中的子帧进行降噪处理,得到降噪系数;计算所述降噪系数的非归一化香农熵系数,以确定所述语音数据的
PWPE
特征向量
。3.
根据权利要求1所述的声纹识别方法,其特征在于,所述基于所述
CBAM

Res2Net

TDNN
模型对所述
PWPE
特征向量进行数据处理,以对所述语音数据对应的说话人进行分类,包括:基于所述
CBAM

Res2Net
模块获取所述
PWPE
特征向量的局部特征,并对所述局部特征进行多尺度聚合特征映射,得到多尺度聚合特征;基于所述统计池化层对所述多尺度聚合特征执行基于一种带有多头注意力机制的统计池化,并由所述损失函数层对所述语音数据对应的说话人进行分类
。4.
根据权利要求3所述的声纹识别方法,其特征在于,所述基于所述
CBAM

Res2Net
模块包括
CBAM
模块和
Res2Net block
模块;将所述
CBAM
模块插入至所述
Res2Net block
模块的尾部,得到所述
CBAM

Res2Net
模块
。5.
根据权利要求3所述的声纹识别方法,其特征在于,所述语音数据包括标准语音数据和实时语音数据;所述由所述损失函数层对所述语音数据对应的说话人进行分类,包括:基于所述损失函数层,计算所述标准语音数据和所述实时语音数据之间差异,得到损失值;设置损失值阈值;根据所述损失值和所述损失值阈值,确定所述标准语音数据和所述实时语音数据是否为同一人
。6.
根据权利要求1所述的声纹识别方法,其特征在于,所述
CBAM

【专利技术属性】
技术研发人员:张华军王淑琪邓小涛王征华张雪涛肖志成苏义鑫
申请(专利权)人:武汉大晟极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1