复杂场景的声纹识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38848042 阅读：12 留言：0更新日期：2023-09-17 09:57

本发明专利技术提供一种复杂场景的声纹识别方法、装置、电子设备及存储介质，该方法包括：获取待识别语音数据，对所述待识别语音数据进行预处理，得到目标语音数据；将所述目标语音数据输入至预设的语音识别模型，得到对应的声纹识别结果；其中，所述语音识别模型基于预设的神经网络模型训练得到，所述神经网络模型包括依次堆叠的TDNN层、ECA

全部详细技术资料下载

【技术实现步骤摘要】
复杂场景的声纹识别方法、装置、电子设备及存储介质

[0001]本专利技术涉及语音识别
，具体涉及一种复杂场景的声纹识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，声纹识别已经在司法、金融、安防等领域有应用案例，然而离真正大规模应用还有一段距离，特别是工程师们经常发现声纹识别系统在实地场景下的识别性能与标准测试集上的性能存在很大差距。
[0003]常用的声纹识别模型如基于时延神经网络的ECAPA
‑
TDNN模型在声纹识别任务中表现出了极为优秀的性能。但是ECAPA
‑
TDNN模型容易受到噪声的影响，且鲁棒性较差。

技术实现思路

[0004]有鉴于此，有必要提供一种复杂场景的声纹识别方法、装置、电子设备及存储介质，用以解决现有技术中声纹识别模型容易受到噪声影响以及鲁棒性较差的技术问题。
[0005]为了实现上述目的，本专利技术提供了一种复杂场景的声纹识别方法，包括：
[0006]获取待识别语音数据，对所述待识别语音数据进行预处理，得到目标语音数据；
[0007]将所述目标语音数据输入至预设的语音识别模型，得到对应的声纹识别结果；
[0008]其中，所述语音识别模型基于预设的神经网络模型训练得到，所述神经网络模型包括依次堆叠的TDNN层、ECA
‑
Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。
[0009]进一步地，所述对所述待识别语音数据进行预处理

【技术保护点】

【技术特征摘要】
1.一种复杂场景的声纹识别方法，其特征在于，包括：获取待识别语音数据，对所述待识别语音数据进行预处理，得到目标语音数据；将所述目标语音数据输入至预设的语音识别模型，得到对应的声纹识别结果；其中，所述语音识别模型基于预设的神经网络模型训练得到，所述神经网络模型包括依次堆叠的TDNN层、ECA
‑
Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。2.根据权利要求1所述的复杂场景的声纹识别方法，其特征在于，所述对所述待识别语音数据进行预处理，得到目标语音数据，包括：对所述待识别语音数据进行采样量化、预加重、分帧加窗、降噪滤波和语音增强处理，得到所述目标语音数据。3.根据权利要求1所述的复杂场景的声纹识别方法，其特征在于，所述神经网络模型中：第一TDNN层、第一ECA
‑
Res2Net网络层、第二ECA
‑
Res2Net网络层、第三ECA
‑
Res2Net网络层、第四ECA
‑
Res2Net网络层、第二TDNN层、所述注意力统计池化及正则化层、所述全连接及正则化层以及所述损失函数层依次连接；所述第四ECA
‑
Res2Net网络层的输入端还与所述第一ECA
‑
Res2Net网络层的输出端连接，所述第二TDNN层的输入端还与所述第一ECA
‑
Res2Net网络层的输出端、所述第二ECA
‑
Res2Net网络层的输出端以及所述第三ECA
‑
Res2Net网络层的输出端连接。4.根据权利要求1所述的复杂场景的声纹识别方法，其特征在于，所述ECA
‑
Res2Net网络层，包括：第一密集层、卷积层、第二密集层和ECA层；其中，所述第一密集层用于将获取的特征维数进行降维，所述第二密集层用于将获取的特征维数恢复到原始维数。5.根据权利要求1
‑
4任一项所述的复杂场景的声纹识别方法，其特征在于，所述注意力统计池化及正则化层用于：将输入的特征图划分为多个子特征图，并对所述多个子特征图进行重复n次的一维卷积运算，得到对应的注意力分数；确定每个所述子特征图的注意力分数对应的均值和方差...

【专利技术属性】
技术研发人员：张华军，王淑琪，邓小涛，王征华，张雪涛，肖志成，蔡洪洋，陈紫阳，苏义鑫，
申请(专利权)人：武汉大晟极科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人