【技术实现步骤摘要】
基于记忆性瓶颈特征的声纹识别的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及声纹识别。
技术介绍
声纹是基于说话人的音波频谱特征而提取的声学特征。如同指纹一样,声纹作为一种生物特征,能够反映说话人的特质和身份信息。声纹识别又称为说话人识别,是利用语音信号中含有的特定说话人信息来自动识别说话人身份的一种生物认证技术。该生物认证技术在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。身份认证矢量i-vector(identityvector)模型是声纹识别系统中常用的一种模型。I-vector模型认为,语音中的说话人和信道信息均包含于一个低维的线性子空间之中,每段语音可以用该低维空间中一个固定长度的矢量表征,该矢量即为身份认证矢量i-vector。身份认证矢量i-vector具备良好的区分度,包含说话人的身份特征信息,是声纹识别以及语音识别的重要特征。基于i-vector的声纹识别一般包含以下过程:基于频谱特征计算声学统计量,根据声学统计量提取身份认证矢量i-vector,然后基于i-vector进行说话人识别。由此,i-vector的提取非常 ...
【技术保护点】
1.一种声纹识别的方法,包括:从说话人音频中提取第一频谱特征;将所述说话人音频输入记忆性深度神经网络DNN,从所述记忆性深度神经网络的瓶颈层提取瓶颈特征,其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层,所述至少一个时间递归层的输出连接到所述瓶颈层,所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小;基于所述第一频谱特征和所述瓶颈特征,形成所述说话人音频的声学特征;基于所述声学特征,提取说话人音频对应的身份认证矢量;基于所述身份认证矢量,采用分类模型进行说话人识别。
【技术特征摘要】
1.一种声纹识别的方法,包括:从说话人音频中提取第一频谱特征;将所述说话人音频输入记忆性深度神经网络DNN,从所述记忆性深度神经网络的瓶颈层提取瓶颈特征,其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层,所述至少一个时间递归层的输出连接到所述瓶颈层,所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小;基于所述第一频谱特征和所述瓶颈特征,形成所述说话人音频的声学特征;基于所述声学特征,提取说话人音频对应的身份认证矢量;基于所述身份认证矢量,采用分类模型进行说话人识别。2.根据权利要求1所述的方法,其中所述第一频谱特征包括,梅尔频谱倒谱系数MFCC特征,以及所述MFCC特征的一阶差分特征和二阶差分特征。3.根据权利要求1所述的方法,其中所述至少一个时间递归层包括,基于长短期记忆LSTM模型的隐含层,或者基于LSTMP模型的隐含层,其中所述LSTMP模型为具有循环投影层的LSTM模型。4.根据权利要求1所述的方法,其中所述至少一个时间递归层包括,基于前馈序列记忆FSMN模型的隐含层,或者基于cFSMN模型的隐含层,其中cFSMN模型为紧凑型FSMN模型。5.根据权利要求1所述的方法,其中将所述说话人音频输入记忆性深度神经网络DNN包括:从所述说话人音频的连续多帧语音中提取第二频谱特征,将所述第二频谱特征输入所述记忆性深度神经网络DNN。6.根据权利要求5所述的方法,其中所述第二频谱特征为梅尔标度滤波器组FBank特征。7.根据权利要求1所述的方法,其中基于所述第一频谱特征和所述瓶颈特征,形成所述说话人音频的声学特征包括,将所述第一频谱特征和所述瓶颈特征进行拼接,从而形成所述声学特征。8.一种声纹识别的装置,包括:第一提取单元,配置为从说话人音频中提取第一频谱特征;第二提取单元,配置为将所述说话人音频输入记忆性深度神经网络DNN,从所述记忆性深...
【专利技术属性】
技术研发人员:王志铭,周俊,李小龙,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。