一种声纹识别方法及装置制造方法及图纸

技术编号：34759066 阅读：11 留言：0更新日期：2022-08-31 18:57

本申请涉及一种声纹识别方法及装置。所述方法包括：获取语音信号的语谱图，并将所述语谱图划分为不同频段的多个子语谱图；利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，其中，用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率；将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。息融合成所述语音信号的声纹。息融合成所述语音信号的声纹。

全部详细技术资料下载

【技术实现步骤摘要】
一种声纹识别方法及装置

[0001]本申请涉及智能语音处理
，尤其涉及一种声纹识别方法及装置。

技术介绍

[0002]作为一种生物识别特征，声纹广泛应用于多种语音处理任务中，比如说话人身份识别等。声纹提取的过程通常是将一段不定长或定长的语音信号转换成固定长度的向量，该向量具有可分性强、稳定性高等特点，能够唯一地标识说话人。
[0003]随着深度学习技术的广泛应用，基于神经网络的声纹提取方法成为目前的主流方法。常用的神经网络声纹提取方法，首先可以计算说话人音频的功率谱或者梅尔频谱(Mel
‑
Spectrogram)，再把功率谱或者梅尔频谱输入至神经网络模型中，经所述神经网络模型输出声纹。相关技术中的神经网络声纹提取方法对所有频段进行无差别地特征提取，为了达到较高的识别率，往往需要较多的通道数以捕获功率谱或者梅尔频谱中的有效特征，导致所述神经网络模型中存在较多的冗余参数，且计算量较大。
[0004]因此，相关技术中亟需一种识别率高、计算量小的声纹识别方法。

技术实现思路

[0005]有鉴于此，提出了一种声纹识别方法及装置。
[0006]第一方面，本申请的实施例提供了一种声纹识别方法，所述方法包括：
[0007]获取语音信号的语谱图，并将所述语谱图划分为不同频段的多个子语谱图；
[0008]利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，其中，用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法，其特征在于，包括：获取语音信号的语谱图，并将所述语谱图划分为不同频段的多个子语谱图；利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，其中，用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率；将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括卷积神经网络，对应地，所述用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率包括：所述第一特征提取网络的卷积核尺寸小于所述第二特征提取网络的卷积核尺寸。3.根据权利要求2所述的方法，其特征在于，所述第一特征提取网络的时间分辨率大于所述第二特征提取网络的时间分辨率，还包括下述中的至少一种：所述第一特征提取网络的通道数多于所述第二特征提取网络的通道数；所述第一特征提取网络的步长小于所述第二特征提取网络的步长。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述特征提取网络包括多个串行连接的子网络，其中，后一个子网络用于提取前一个子网络输出结果的特征信息。5.根据权利要求4所述的方法，其特征在于，所述利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，包括：利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，并将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中。6.根据权利要求5所述的方法，其特征在于，所述将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中，包括：将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果按照动态生成的比例相互同步至对方的子网络中，所述比例根据子网络的输出结果的相关性确定。7.根据权利要求4
‑
6任一项所述的方法，其特征在于，所述子网络包括由至少一个空洞卷积模块串接而成的神经网络，所述空洞卷积模块包括基于空洞卷积的神经网络模块。8.根据权利要求1
‑
7任一项所述的方法，其特征在于，所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹，包括：将所述不同时间分辨率的特征提取网络所提取得到的特征信息在时间维度上进行适配；将适配后的特征信息进行拼接，生成所述语音信号的声纹。9.根据权利要求1
‑
8任一项所述的方法，其特征在于，在所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹之后，包括：确定与所述语音信号在同一语音时段内的其他多个语音信号对应的声纹；确定所述语音时段内多个语音信号对应的声纹的平均值，并将所述平均值作为所述语音时段对应的声纹结果。10.一种声纹识别装置，其特征在于，包括：
语谱图划分模块，用于获取语音信号的语谱图，并将所述语谱图划分为不同频段的多个子语谱图；特征提取模块，用于利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息，其中，用于提取高频段子语...

【专利技术属性】
技术研发人员：王剑桥，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人