一种声纹识别方法及装置制造方法及图纸

技术编号:34759066 阅读:11 留言:0更新日期:2022-08-31 18:57
本申请涉及一种声纹识别方法及装置。所述方法包括:获取语音信号的语谱图,并将所述语谱图划分为不同频段的多个子语谱图;利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,其中,用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率;将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。息融合成所述语音信号的声纹。息融合成所述语音信号的声纹。

【技术实现步骤摘要】
一种声纹识别方法及装置


[0001]本申请涉及智能语音处理
,尤其涉及一种声纹识别方法及装置。

技术介绍

[0002]作为一种生物识别特征,声纹广泛应用于多种语音处理任务中,比如说话人身份识别等。声纹提取的过程通常是将一段不定长或定长的语音信号转换成固定长度的向量,该向量具有可分性强、稳定性高等特点,能够唯一地标识说话人。
[0003]随着深度学习技术的广泛应用,基于神经网络的声纹提取方法成为目前的主流方法。常用的神经网络声纹提取方法,首先可以计算说话人音频的功率谱或者梅尔频谱(Mel

Spectrogram),再把功率谱或者梅尔频谱输入至神经网络模型中,经所述神经网络模型输出声纹。相关技术中的神经网络声纹提取方法对所有频段进行无差别地特征提取,为了达到较高的识别率,往往需要较多的通道数以捕获功率谱或者梅尔频谱中的有效特征,导致所述神经网络模型中存在较多的冗余参数,且计算量较大。
[0004]因此,相关技术中亟需一种识别率高、计算量小的声纹识别方法。

技术实现思路

[0005]有鉴于此,提出了一种声纹识别方法及装置。
[0006]第一方面,本申请的实施例提供了一种声纹识别方法,所述方法包括:
[0007]获取语音信号的语谱图,并将所述语谱图划分为不同频段的多个子语谱图;
[0008]利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,其中,用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率;
[0009]将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。
[0010]上述方法不仅考虑到语谱图在频率维度的能量分布差异,还考虑到语谱图在时间维度上的能量分布差异。在将语谱图划分成不同频段的子语谱图的基础上,还提供了不同时间分辨率的特征提取网络分别提取不同频段的子语谱图的特征,其中,可以利用较高时间分辨率的特征提取网络提取语谱图较高频段部分快速变化的丰富模式,用较低时间分辨率的特征提取网络提取语谱图较低频段部分缓慢变化的简单模式。
[0011]根据第一方面第一种可能的实现方式,所述特征提取网络包括卷积神经网络,对应地,所述用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率包括:
[0012]所述第一特征提取网络的卷积核尺寸小于所述第二特征提取网络的卷积核尺寸。
[0013]本实施例中,在所述特征提取网络包括卷积神经网络的情况下,通过设置卷积神经网络的卷积核尺寸实现所述第一特征提取网络和第二特征提取网络在时间分辨率上的高低。
[0014]根据第一方面第二种可能的实现方式,所述第一特征提取网络的时间分辨率大于所述第二特征提取网络的时间分辨率,还包括下述中的至少一种:所述第一特征提取网络的通道数多于所述第二特征提取网络的通道数;
[0015]所述第一特征提取网络的步长小于所述第二特征提取网络的步长。
[0016]本实施例中,在所述特征提取网络包括卷积神经网络的情况下,还可以通过设置卷积神经网络的通道数、步长等参数实现所述第一特征提取网络和第二特征提取网络在时间分辨率上的高低。
[0017]根据第一方面第三种可能的实现方式,所述特征提取网络包括多个串行连接的子网络,其中,后一个子网络用于提取前一个子网络输出结果的特征信息。
[0018]本申请实施例中,利用多个子网络进行特征提取,使得提取的特征越丰富、越准确。
[0019]根据第一方面第四种可能的实现方式,所述利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,包括:
[0020]利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,并将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中。
[0021]本申请实施例中,考虑到语谱图的高频部分和低频部分之间具有关联关系,可以在子网络之间实现信息同步,使得所述第一特征提取网络和所述第二特征提取网络在提取特征的同时,能够吸收到对方的有用信息。
[0022]根据第一方面第五种可能的实现方式,所述将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中,包括:
[0023]将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果按照动态生成的比例相互同步至对方的子网络中,所述比例根据子网络的输出结果的相关性确定。
[0024]本申请实施例中,设置同步信息的比例,使得所述第一特征提取网络和所述第二特征提取网络从对方获取到更加有用的信息。
[0025]根据第一方面第六种可能的实现方式,所述子网络包括由至少一个空洞卷积模块串接而成的神经网络,所述空洞卷积模块包括基于空洞卷积的神经网络模块。
[0026]本申请实施例中,能够在维持计算量不变的情况下,扩大所述子网络的感受野。
[0027]根据第一方面第七种可能的实现方式,所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹,包括:
[0028]将所述不同时间分辨率的特征提取网络所提取得到的特征信息在时间维度上进行适配;
[0029]将适配后的特征信息进行拼接,生成所述语音信号的声纹。
[0030]本申请实施例中,提供一种特征信息融合的方式。
[0031]根据第一方面第八种可能的实现方式,在所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹之后,包括:
[0032]确定与所述语音信号在同一语音时段内的其他多个语音信号对应的声纹;
[0033]确定所述语音时段内多个语音信号对应的声纹的平均值,并将所述平均值作为所
述语音时段对应的声纹结果。
[0034]本申请实施例中,可以对各个语音帧对应的声纹结果在时间维度上做平均,最终得到与整个时间长度无关的声纹识别结果。
[0035]第二方面,本申请的实施例提供了一种声纹识别装置,包括:
[0036]语谱图划分模块,用于获取语音信号的语谱图,并将所述语谱图划分为不同频段的多个子语谱图;
[0037]特征提取模块,用于利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,其中,用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率;
[0038]特征融合模块,用于将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。
[0039]根据第二方面第一种可能的实现方式,所述特征提取网络包括卷积神经网络,对应地,所述用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括:获取语音信号的语谱图,并将所述语谱图划分为不同频段的多个子语谱图;利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,其中,用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率;将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹。2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括卷积神经网络,对应地,所述用于提取高频段子语谱图特征信息的第一特征提取网络的时间分辨率大于用于提取低频段子语谱图特征信息的第二特征提取网络的时间分辨率包括:所述第一特征提取网络的卷积核尺寸小于所述第二特征提取网络的卷积核尺寸。3.根据权利要求2所述的方法,其特征在于,所述第一特征提取网络的时间分辨率大于所述第二特征提取网络的时间分辨率,还包括下述中的至少一种:所述第一特征提取网络的通道数多于所述第二特征提取网络的通道数;所述第一特征提取网络的步长小于所述第二特征提取网络的步长。4.根据权利要求1

3任一项所述的方法,其特征在于,所述特征提取网络包括多个串行连接的子网络,其中,后一个子网络用于提取前一个子网络输出结果的特征信息。5.根据权利要求4所述的方法,其特征在于,所述利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,包括:利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,并将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中。6.根据权利要求5所述的方法,其特征在于,所述将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果相互同步至对方的子网络中,包括:将所述第一特征提取网络和所述第二特征提取网络中子网络的输出结果按照动态生成的比例相互同步至对方的子网络中,所述比例根据子网络的输出结果的相关性确定。7.根据权利要求4

6任一项所述的方法,其特征在于,所述子网络包括由至少一个空洞卷积模块串接而成的神经网络,所述空洞卷积模块包括基于空洞卷积的神经网络模块。8.根据权利要求1

7任一项所述的方法,其特征在于,所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹,包括:将所述不同时间分辨率的特征提取网络所提取得到的特征信息在时间维度上进行适配;将适配后的特征信息进行拼接,生成所述语音信号的声纹。9.根据权利要求1

8任一项所述的方法,其特征在于,在所述将所述不同时间分辨率的特征提取网络所提取得到的特征信息融合成所述语音信号的声纹之后,包括:确定与所述语音信号在同一语音时段内的其他多个语音信号对应的声纹;确定所述语音时段内多个语音信号对应的声纹的平均值,并将所述平均值作为所述语音时段对应的声纹结果。10.一种声纹识别装置,其特征在于,包括:
语谱图划分模块,用于获取语音信号的语谱图,并将所述语谱图划分为不同频段的多个子语谱图;特征提取模块,用于利用不同时间分辨率的特征提取网络分别提取所述多个子语谱图的特征信息,其中,用于提取高频段子语...

【专利技术属性】
技术研发人员:王剑桥
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1