This application discloses a method and device for generating voiceprint information extraction model and extracting voiceprint information. The method includes: obtaining the first training spectrum sequence representing the time and frequency domain characteristics of training speech data; disrupting the sequence of the first training spectrum sequence to obtain the second training spectrum sequence; and using convolutional neural network to pair the first training spectrum sequence based on training user identification. The second training spectrum sequence is trained to generate a voiceprint vector extraction model. It can be seen that the convolution neural network is used to train the voiceprint features corresponding to the training spectrum sequences of normal and disordered time series, and fully excavate the interference of the change of time series on the voiceprint features. The convolution neural network can analyze the time domain and frequency domain characteristics of the training spectrum sequence jointly. The short and long training voiceprint data can also be trained adequately to obtain more accurate and stable voiceprint features. Voice print vector extraction model can be used to extract accurate and stable voiceprint vectors and improve the accuracy of recognition and authentication.
【技术实现步骤摘要】
一种声纹信息提取模型生成、声纹信息提取的方法和装置
本申请涉及数据处理
,尤其涉及一种声纹信息提取模型生成、声纹信息提取的方法和装置。
技术介绍
随着智能识别技术的快速发展,越来越多的场景需要应用生物识别技术进行识别认证,例如,金融安全、国家安全、智能家居和行政司法等场景。而声纹识别技术是生物识别技术的关键技术之一,具有安全、高效、便捷和用户无感知等特点。由于在某些应用场景中对基于声纹识别的识别认证准确度要求较高,而识别认证准确的前提是获得准确的声纹信息作为声纹识别标准。目前,作为声纹识别标准的声纹信息获得方法采用基于全变量的因子分析法,具体地,利用大量的语音数据预先训练得到覆盖各种环境和信道的全变量空间;提取语音数据中反映声纹信息的特征;通过前向-后向算法(Baum-Welch算法)按时序计算每帧语音数据对应的特征在混合高斯模型每个高斯成分中的后验占有率;通过全变量空间进行线性投影获得该段语音数据对应的声纹向量。对于上述声纹信息提取的方法,当语音数据时长较短时提取特征量不够充分,即使采用其他方式获得较为充分的特征量,由于目前声纹信息提取模型不够精准、稳定, ...
【技术保护点】
1.一种声纹信息提取模型生成的方法,其特征在于,包括:获得训练语音数据对应的第一训练语谱序列;对所述第一训练语谱序列的时序进行调整,获得对应的第二训练语谱序列;基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识,对初始卷积神经网络进行训练生成声纹向量提取模型。
【技术特征摘要】
1.一种声纹信息提取模型生成的方法,其特征在于,包括:获得训练语音数据对应的第一训练语谱序列;对所述第一训练语谱序列的时序进行调整,获得对应的第二训练语谱序列;基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识,对初始卷积神经网络进行训练生成声纹向量提取模型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一训练语谱序列的时序进行调整,获得对应的第二训练语谱序列,具体为:按照预设概率对所述第一训练语谱序列的时序进行随机调整,获得所述第二训练语谱序列。3.根据权利要求1所述的方法,其特征在于,基于所述第一训练语谱序列、所述第二训练语谱序列和对应所述训练语音数据的训练用户标识,对初始卷积神经网络进行训练生成声纹向量提取模型,具体为:根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识,对初始卷积神经网络进行训练生成声纹向量提取模型;所述N为正整数,所述第一训练语谱片段和所述第二训练语谱片段的长度为预设窗长。4.根据权利要求3所述的方法,其特征在于,所述根据基于所述第一训练语谱序列切分获得的N个第一训练语谱片段、基于所述第二训练语谱序列切分获得的N个第二训练语谱片段和对应所述训练语音数据的训练用户标识,对初始卷积神经网络进行训练生成声纹向量提取模型,包括:分别将所述N个第一训练语谱片段输入第一卷积神经网络结构,获得N个第一向量V1;分别将所述N个第二训练语谱片段输入第二卷积神经网络结构,获得N个第二向量V2;对应拼接所述N个第一向量V1和所述N个第二向量V2,获得N个第三向量V′;利用线性变换压缩所述N个第三向量V′的维度,获得N个训练声纹向量V;基于所述N个训练声纹向量V,获得对应的预测用户标识;基于所述预测用户标识和所述训练用户标识,迭代训练所述初始卷积神经网络生成声纹向量提取模型。5.根据权利要求3所述的方法,其特征在于,所述N个第一训练语谱片段的获得步骤,包括:若所述第一训练语谱序列的长度小于所述预设窗长,对所述第一训练语谱序列进行复制拼接处理,获得长度大于或等于所述预设窗长的第三训练语谱序列;基于所述预设窗长切分所述第三训练语谱序列,获得所述N个第一训练语谱片段;对应地,所述N个第二训练语谱片段的获得步骤,包括:若所述第二训练语谱序列的长度小于所述预设窗长,对所述第二训练语谱序列进行复制拼接处理,获得长度大于或等于所述预设窗长的第四训练语谱序列;基于所述预设窗长切分所述第四训练语谱序列,获得所述N个第二训练语谱片段。6.根据权利要求3所述的方法,其特征在于,所述预设窗长为至少...
【专利技术属性】
技术研发人员:李晋,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。