复杂场景的声纹识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38848042 阅读:12 留言:0更新日期:2023-09-17 09:57
本发明专利技术提供一种复杂场景的声纹识别方法、装置、电子设备及存储介质,该方法包括:获取待识别语音数据,对所述待识别语音数据进行预处理,得到目标语音数据;将所述目标语音数据输入至预设的语音识别模型,得到对应的声纹识别结果;其中,所述语音识别模型基于预设的神经网络模型训练得到,所述神经网络模型包括依次堆叠的TDNN层、ECA

【技术实现步骤摘要】
复杂场景的声纹识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音识别
,具体涉及一种复杂场景的声纹识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,声纹识别已经在司法、金融、安防等领域有应用案例,然而离真正大规模应用还有一段距离,特别是工程师们经常发现声纹识别系统在实地场景下的识别性能与标准测试集上的性能存在很大差距。
[0003]常用的声纹识别模型如基于时延神经网络的ECAPA

TDNN模型在声纹识别任务中表现出了极为优秀的性能。但是ECAPA

TDNN模型容易受到噪声的影响,且鲁棒性较差。

技术实现思路

[0004]有鉴于此,有必要提供一种复杂场景的声纹识别方法、装置、电子设备及存储介质,用以解决现有技术中声纹识别模型容易受到噪声影响以及鲁棒性较差的技术问题。
[0005]为了实现上述目的,本专利技术提供了一种复杂场景的声纹识别方法,包括:
[0006]获取待识别语音数据,对所述待识别语音数据进行预处理,得到目标语音数据;
[0007]将所述目标语音数据输入至预设的语音识别模型,得到对应的声纹识别结果;
[0008]其中,所述语音识别模型基于预设的神经网络模型训练得到,所述神经网络模型包括依次堆叠的TDNN层、ECA

Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。
[0009]进一步地,所述对所述待识别语音数据进行预处理,得到目标语音数据,包括:
[0010]对所述待识别语音数据进行采样量化、预加重、分帧加窗、降噪滤波和语音增强处理,得到所述目标语音数据。
[0011]进一步地,所述神经网络模型中:
[0012]第一TDNN层、第一ECA

Res2Net网络层、第二ECA

Res2Net网络层、第三ECA

Res2Net网络层、第四ECA

Res2Net网络层、第二TDNN层、所述注意力统计池化及正则化层、所述全连接及正则化层以及所述损失函数层依次连接;
[0013]所述第四ECA

Res2Net网络层的输入端还与所述第一ECA

Res2Net网络层的输出端连接,所述第二TDNN层的输入端还与所述第一ECA

Res2Net网络层的输出端、所述第二ECA

Res2Net网络层的输出端以及所述第三ECA

Res2Net网络层的输出端连接。
[0014]进一步地,所述ECA

Res2Net网络层,包括:第一密集层、卷积层、第二密集层和ECA层;
[0015]其中,所述第一密集层用于将获取的特征维数进行降维,所述第二密集层用于将获取的特征维数恢复到原始维数。
[0016]进一步地,所述注意力统计池化及正则化层用于:
[0017]将输入的特征图划分为多个子特征图,并对所述多个子特征图进行重复n次的一
维卷积运算,得到对应的注意力分数;
[0018]确定每个所述子特征图的注意力分数对应的均值和方差,按照所述子特征图的顺序,交替将所述均值和所述方差连接;
[0019]其中,当n≥2时,对所述子特征图进行n次一维卷积后,进行n

1次tanh函数激活。
[0020]本专利技术还提供一种复杂场景的声纹识别装置,包括:
[0021]预处理模块,用于获取待识别语音数据,对所述待识别语音数据进行预处理,得到目标语音数据;
[0022]识别模块,用于将所述目标语音数据输入至预设的语音识别模型,得到对应的声纹识别结果;
[0023]其中,所述语音识别模型基于预设的神经网络模型训练得到,所述神经网络模型包括依次堆叠的TDNN层、ECA

Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。
[0024]进一步地,所述预处理模块,用于对所述待识别语音数据进行采样量化、预加重、分帧加窗、降噪滤波和语音增强处理,得到所述目标语音数据。
[0025]进一步地,所述神经网络模型中:
[0026]第一TDNN层、第一ECA

Res2Net网络层、第二ECA

Res2Net网络层、第三ECA

Res2Net网络层、第四ECA

Res2Net网络层、第二TDNN层、所述注意力统计池化及正则化层、所述全连接及正则化层以及所述损失函数层依次连接;
[0027]所述第四ECA

Res2Net网络层的输入端还与所述第一ECA

Res2Net网络层的输出端连接,所述第二TDNN层的输入端还与所述第一ECA

Res2Net网络层的输出端、所述第二ECA

Res2Net网络层的输出端以及所述第三ECA

Res2Net网络层的输出端连接。
[0028]本专利技术还提供一种电子设备,包括存储器和处理器,其中,
[0029]所述存储器,用于存储程序;
[0030]所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现如上述任意一项所述的复杂场景的声纹识别方法中的步骤。
[0031]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的复杂场景的声纹识别方法。
[0032]采用上述实现方式的有益效果是:本专利技术提供的复杂场景的声纹识别方法、装置、电子设备及存储介质,通过ECA

Res2Net网络层捕获语音数据的局部特征,并对ECA

Res2Net网络层输出的特征,对所有ECA

Res2Net网络层的输出进行多尺度聚合特征映射,最后执行基于一种带有Multi

head Attention的注意力统计池化,损失函数使用Sub

center

ArcFace,该损失函数在深度学习框架中极易实现,无需与其他损失函数结合即可获得稳定的性能,并可轻松地收敛,且在训练期间仅增加了可忽略不计的计算复杂度,从而解决现有技术中声纹识别模型容易受到噪声影响以及鲁棒性较差的技术问题。
附图说明
[0033]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
Delay Neural Network,时间延迟网络)层提取声音特征,然后利用ECA...

【技术保护点】

【技术特征摘要】
1.一种复杂场景的声纹识别方法,其特征在于,包括:获取待识别语音数据,对所述待识别语音数据进行预处理,得到目标语音数据;将所述目标语音数据输入至预设的语音识别模型,得到对应的声纹识别结果;其中,所述语音识别模型基于预设的神经网络模型训练得到,所述神经网络模型包括依次堆叠的TDNN层、ECA

Res2Net网络层、注意力统计池化及正则化层、全连接及正则化层以及损失函数层。2.根据权利要求1所述的复杂场景的声纹识别方法,其特征在于,所述对所述待识别语音数据进行预处理,得到目标语音数据,包括:对所述待识别语音数据进行采样量化、预加重、分帧加窗、降噪滤波和语音增强处理,得到所述目标语音数据。3.根据权利要求1所述的复杂场景的声纹识别方法,其特征在于,所述神经网络模型中:第一TDNN层、第一ECA

Res2Net网络层、第二ECA

Res2Net网络层、第三ECA

Res2Net网络层、第四ECA

Res2Net网络层、第二TDNN层、所述注意力统计池化及正则化层、所述全连接及正则化层以及所述损失函数层依次连接;所述第四ECA

Res2Net网络层的输入端还与所述第一ECA

Res2Net网络层的输出端连接,所述第二TDNN层的输入端还与所述第一ECA

Res2Net网络层的输出端、所述第二ECA

Res2Net网络层的输出端以及所述第三ECA

Res2Net网络层的输出端连接。4.根据权利要求1所述的复杂场景的声纹识别方法,其特征在于,所述ECA

Res2Net网络层,包括:第一密集层、卷积层、第二密集层和ECA层;其中,所述第一密集层用于将获取的特征维数进行降维,所述第二密集层用于将获取的特征维数恢复到原始维数。5.根据权利要求1

4任一项所述的复杂场景的声纹识别方法,其特征在于,所述注意力统计池化及正则化层用于:将输入的特征图划分为多个子特征图,并对所述多个子特征图进行重复n次的一维卷积运算,得到对应的注意力分数;确定每个所述子特征图的注意力分数对应的均值和方差...

【专利技术属性】
技术研发人员:张华军王淑琪邓小涛王征华张雪涛肖志成蔡洪洋陈紫阳苏义鑫
申请(专利权)人:武汉大晟极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1