一种语音声纹可视化方法与装置制造方法及图纸

技术编号：33073074 阅读：11 留言：0更新日期：2022-04-15 10:08

本发明专利技术提供一种语音声纹可视化方法与装置，所述方法包括：获取说话者的语音信息，并获取语音信息的特征信息；将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；其中，所述声纹识别模型是基于语音样本以及语音样本对应的说话人标签进行训练得到的。本发明专利技术能够根据层次性类激活热力图实现对语音声纹的可视化。实现对语音声纹的可视化。实现对语音声纹的可视化。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音声纹可视化方法与装置

[0001]本专利技术涉及声纹识别的
，尤其涉及一种语音声纹可视化方法与装置。

技术介绍

[0002]声纹识别技术，又称说话人识别技术，是生物特征识别技术的一种。随着深度学习的发展，当前主流的声纹识别技术是通过深度神经网络模型来提取语音中的说话人个性声纹特征，进而完成说话人身份的辨认或确认。
[0003]可视化分析技术是针对深度神经网络的可解释性问题所发展而来的一类研究方向。具体地，通过对深度神经网络的特征空间、预测结果的可视化分析，实现对深度神经网络模型的黑盒分析，提高对深度神经网络模型的可解释性。
[0004]在语音处理领域，可视化分析技术最先在语音识别任务上开展应用。如图1所示，首先对语音频谱特征进行局部掩蔽；然后通过人耳听觉感知或者自动语音识别系统，返回人耳听觉或自动语音识别系统对目标词语识别的正确性变化；最后通过统计该正确性变化与其输入掩蔽位置的关系，即可得到重要性函数图。通过重要性函数图的可视化表现，结合语音学知识，实现对语音识别技术的可视化分析。
[0005]在图像处理领域，可视化分析技术最先在图像识别任务上开展应用。如图2所示，首先训练得到一个基于卷积深度神经网络结构的图像识别模型。当一张图片输入该模型后，可以通过反向传播算法逐层观察卷积层的特征图激活值，对这些在不同卷积层带有不同激活值的特征图进行融合，即可得到重要性函数图。基于重要性函数图，可以开展图像领域相关下游任务，如目标检测任务，图像分割任务等。
[0006]尽管可视化分析技...

【技术保护点】

【技术特征摘要】
1.一种语音声纹可视化方法，其特征在于，包括：获取说话者的语音信息，并获取语音信息的特征信息；将所述特征信息输入至训练好的声纹识别模型中，基于所述声纹识别模型的多层卷积层得到所述语音信息的层次性类激活热力图；其中，所述声纹识别模型是基于语音样本以及语音样本对应的说话人标签进行训练得到的。2.根据权利要求1所述的语音声纹可视化方法，其特征在于，所述声纹识别模型的训练过程包括：获取语音样本的特征样本；将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图；对所述卷积层输出的特征图依次进行时域统计处理、全连接处理以及分类处理，并获取所述语音样本的分类识别结果；基于损失函数对所述声纹识别模型进行迭代更新，直至所述语音样本的声纹识别结果和分类识别结果的差值达到预设阈值。3.根据权利要求2所述的语音声纹可视化方法，其特征在于，将所述特征样本输入至所述卷积层中，基于所述卷积层对所述特征样本进行卷积操作，生成特征样本的对应卷积层的特征图之后，还包括：基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重；将每个所述特征图与其对应的类激活权重相乘，得到目标特征图的类激活图；分别将每个所述卷积层对应的目标特征图相加，得到每个卷积层的类激活图；将每个所述卷积层的类激活图相加，得到所述语音信息的层次性类激活热力图。4.根据权利要求3所述的语音声纹可视化方法，其特征在于，所述基于神经网络反向传播算法，获取所述卷积层的多个特征图的类激活权重，包括：基于神经网络反向传播算法，获得语音信息对应的语音类别的目标梯度；基于激活函数对所述目标梯度进行负值滤除，得到所述语音信息的目标卷积层的目标特征图的目标位置的权重；所述将每个所述特征图与其对应的类激活权重相乘，得到目标特征图的类激活图，包括：将所述目标卷积层的目标特征图的每个位...

【专利技术属性】
技术研发人员：郑方，李鹏琦，李蓝天，徐明星，万化，张琛，潘仰耀，谢弈峥，
申请(专利权)人：上海浦东发展银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人