一种基于CNN融合特征的说话人辨认系统技术方案

技术编号:22566724 阅读:39 留言:0更新日期:2019-11-16 12:45
本发明专利技术公开了一种基于CNN融合特征的说话人辨认系统,该系统对输入语音信号进行预处理;再利用语谱图对卷积神经网络进行训练;最后寻找最优特征后进行特征融合。该方法克服了现有语音说话人识别系统的不足,与传统基于单一深度特征的说话人系统相比较,在不增加系统训练复杂度的前提下,可以从深浅不同的层次对说话人身份信息进行更加全面地描述,从而使得系统的识别率更高,性能得到进一步提升,可以很好地应用于智能说话人身份信息的辨认。

A speaker recognition system based on CNN fusion features

The invention discloses a speaker identification system based on CNN fusion features, which preprocesses the input speech signal, trains convolutional neural network by using speech spectrum, and finally performs feature fusion after finding the optimal features. Compared with the traditional speaker system based on single depth feature, this method can describe the speaker's identity information more comprehensively from different levels without increasing the training complexity of the system, so that the recognition rate of the system is higher, the performance is further improved, and the system can be well applied Identification of identity information of Yu intelligent speaker.

【技术实现步骤摘要】
一种基于CNN融合特征的说话人辨认系统
本专利技术涉及一种基于CNN融合特征的说话人辨认系统,属于语音识别

技术介绍
在过去的近二十年里,随着人工智能的飞速发展,声纹、虹膜、指纹、人脸识别等一些生物识别技术已经引起了广泛的关注。其中语音是人们日常生活中交流和传递信息的一种重要方式,它是说话人的健康、情感、身份等信息的重要载体。当一个人的声道结构被确定后,他就会有自己独特的特征。因此,这就使得自动说话人识别变为可能。说话人识别也叫声纹识别,是根据发音人的语音片段来进行身份识别。一般来说,在说话人识别领域,它主要包含两个重要的分支:说话人辨认和说话人确认。前者主要是通过与待识别的说话人特征进行比较,从而选择出相似度最高的样本,它是一个多分类问题;后者是判决待测语音是否属于某个特定训练好的说话人,它是一个二元分类问题。说话人识别系统主要包含三部分:语音数据采集与预处理、说话人身份特征的提取以及分类识别。其中说话人特征信息的提取是最重要的部分,特征的好坏直接影响着系统的识别率。因此,这也是本专利技术的研究重点。目前,用于说话人系统的特征参数主要可分为传统特征和深度特征。传统特征主要包含有MFCC,LPCC,LPC,PLP等,在以前研究领域中,上述特征参数都在一定范围内表现出良好的性能,但是它们反映的都是语音信号浅层的身份信息,不能很好地挖掘更深层次的特征和适应当前大数据的应用场景。随着计算机硬件处理能力的进一步提高,设计和应用深度神经网络(DeepNeuralNetwork,DNN)已经成为可能。它主要是模仿人大脑中神经元工作方式来达到人工智能,目前常用于语音识别领域的深度网络大致可分为:深度信念网络(DeepBeliefNetwork,DBN)、卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)。DBN用于说话人识别主要有两个方面:一方面是作为分类器代替传统的支持矢量机(SupportVectorMachine,SVM)在系统最后进行身份信息的分类;另一方面是对预处理后的语音信号进行特征提取。它能够很好地挖掘语音信号深层次的信息从而提高系统性能。CNN在智能图像识别领域取得了优越的性能,图像训练过程与语音训练过程具有高度相似性,因此越来越多的研究将CNN用于语音识别领域。它主要是对语谱图进行一系列卷积、池化等操作来获取与身份有关的深度个性信息,然后将这些提取到的信息与模板中的特征矢量进行匹配从而完成说话人识别。通过前期研究表明,卷积神经网络在说话人识别领域表现出了良好的性能。上述的两种网络虽然在语音识别领域相较于基于传统特征参数的系统性能有所提高,但是它们采用的都是单一的特征,即一种非融合特征。它不能很好地考虑不同特征层级之间的互补性,因此也难以全面地对说话人个性信息进行描述,系统的识别率还有待提高。发现针对上述问题,本专利技术提出一种基于CNN融合特征的说话人辨认系统能够很好地解决这一问题。
技术实现思路
本专利技术主要目的在于针对现存技术的不足,提出一种基于CNN融合特征的说话人辨认系统,该方法克服了现存说话人识别系统的不足。与传统的基于单一特征说话人辨认方法相比较,它可以充分利用不同层级以及深浅层特征之间的优势,在不增加系统复杂度的前提下,有效地提高系统识别率。本专利技术解决上述问题所采用的技术方案为一种基于CNN融合特征的说话人辨认系统,包括以下步骤:步骤1、对输入语音信号进行预处理并获取语谱图;步骤2、利用语谱图对卷积神经网络进行训练;步骤3、寻找最优的单层特征并构建新的卷积神经网络对特征进行融合,将新的融合特征作为输入从而完成说话人识别。进一步的,步骤1的操作步骤包括:步骤1-1、输入一段.wav格式的语音信号,对每一句输入的时域连续语音信号进行采样,然后对其进行预处理,使每段语音得到M帧信号;步骤1-2、对预处理后的信号进行傅里叶变换,每帧数据按时序连接形成频谱,对频率段实施对数非线性缩放,将频率域转换成对数领域,得到每段语音的语谱图。进一步的,步骤1-1中,所述预处理包括预加重、分帧、加窗预处理技术。进一步的,步骤1-2的操作步骤为对预处理后的每帧语音信号进行短时傅里叶变换,得到信号,然后使每帧信号按照时序连接形成频谱得到周期图,公式为:其中m表示总的帧数,n表示每帧的帧长;然后根据得到的周期图进行取对数运算,得到,计算式如下:在将和根据时间和频率刻度变换为和,将画成二维图形即得到了信号的语谱图。进一步的,步骤2的操作步骤包括:步骤2-1、对CaffeNet网络神经元结点之间的连接权值进行初始化,并将步骤1得到的语谱图尺寸转为统一大小;步骤2-2、在卷积层,利用卷积核对步骤2-1预处理后的语谱图进行卷积操作;步骤2-3、卷积操作后,在卷积层的后面加入一个非线性的激活函数,所述非线性激活函数为ReLU函数;步骤2-4、在池化层,利用平均池化函数对步骤2-3得到的图形进行处理;步骤2-5、对处理后的图形,通过全连接层的前向传播,得到网络输出值y;步骤2-6、通过计算网络输出值与理想期望输出值之间的损失函数,公式为:;式中表示所要分类的目标类别数,即输出层的节点个数;分别表示网络节点间的连接权值和偏置;表示第i类输出的实际值,表示第i类的理想期望输出值;步骤2-7、比较与设定阈值的大小,若损失函数值大于设定阈值,则继续步骤2-8;若损失函数小于设定阈值,则得到的权值为目标值,训练结束进行步骤3;步骤2-8、将网络误差,即损失函数值传回网络中,依次求得全连接层、池化层、卷积层的误差,根据求得的全连接层、池化层、卷积层的误差来更新每层之间连接的权值,重新进行前向传播,继续进行步骤2-2~2-7。进一步的,步骤2-8中,获得全连接层、池化层、卷积层的误差的步骤包括:在求出网络的总损失函数值后,进行反向传播,将误差传入输出层的上一层全连接层,求出该层中产生了多少误差;找出全连接层的哪些节点与输出层连接,然后用误差乘以节点的权值,求得每个节点的误差;在池化层,根据上层传递过来的误差,若采用的是最大池化方法,则直接把误差传到上一层连接的节点中,如果采用的是平均池化,则误差平均分布在上一层中,池化层不需要进行权值更新,只是将误差传到上一层网络中;卷积层中,根据上一层池化方法,求得每个节点误差,然后对卷积层误差进行最外层全零填充,并将卷积核进行一百八十度旋转,再用旋转后的卷积核卷积填充过程的误差矩阵,得到了上一层的误差。进一步的,步骤3的操作步骤包括:步骤3-1、根据步骤2训练好的5层CaffeNet网络,分别提取二、三、四、五层的特征进行说话人识别,通过对比识别率选出两个最优特征,其中一个代表深层特征,一个代表浅层特征;步骤3-2、构建一个新的卷积神经网络,所述新的卷积神经网络包括一个主干、两个分支和三个全连接本文档来自技高网
...

【技术保护点】
1.一种基于CNN融合特征的说话人辨认系统,其特征在于,包括以下步骤:/n步骤1、对输入语音信号进行预处理并获取语谱图;/n步骤2、利用语谱图对卷积神经网络进行训练;/n步骤3、寻找最优的单层特征并构建新的卷积神经网络对特征进行融合,将新的融合特征作为输入从而完成说话人识别。/n

【技术特征摘要】
1.一种基于CNN融合特征的说话人辨认系统,其特征在于,包括以下步骤:
步骤1、对输入语音信号进行预处理并获取语谱图;
步骤2、利用语谱图对卷积神经网络进行训练;
步骤3、寻找最优的单层特征并构建新的卷积神经网络对特征进行融合,将新的融合特征作为输入从而完成说话人识别。


2.根据权利要求1所述的一种基于CNN融合特征的说话人辨认系统,其特征在于,步骤1的操作步骤包括:
步骤1-1、输入一段.wav格式的语音信号,对每一句输入的时域连续语音信号进行采样,然后对其进行预处理,使每段语音得到M帧信号;
步骤1-2、对预处理后的信号进行傅里叶变换,每帧数据按时序连接形成频谱,对频率段实施对数非线性缩放,将频率域转换成对数领域,得到每段语音的语谱图。


3.根据权利要求2所述的一种基于CNN融合特征的说话人辨认系统,其特征在于,步骤1-1中,所述预处理包括预加重、分帧、加窗预处理技术。


4.根据权利要求2所述的一种基于CNN融合特征的说话人辨认系统,其特征在于,步骤1-2的操作步骤为对预处理后的每帧语音信号进行短时傅里叶变换,得到信号,然后使每帧信号按照时序连接形成频谱得到周期图,公式为:



其中m表示总的帧数,n表示每帧的帧长;
然后根据得到的周期图进行取对数运算,得到,计算式如下:



在将和根据时间和频率刻度变换为和,将画成二维图形即得到了信号的语谱图。


5.根据权利要求1所述的一种基于CNN融合特征的说话人辨认系统,其特征在于,步骤2的操作步骤包括:
步骤2-1、对CaffeNet网络神经元结点之间的连接权值进行初始化,并将步骤1得到的语谱图尺寸转为统一大小;
步骤2-2、在卷积层,利用卷积核对步骤2-1预处理后的语谱图进行卷积操作;
步骤2-3、卷积操作后,在卷积层的后面加入一个非线性的激活函数,所述非线性激活函数为ReLU函数;
步骤2-4、在池化层,利用平均池化函数对步骤2-3得到的图形进行处理;
步骤2-5、对处理后的图形,通过全连接层的前向传播,得到网络输出值y;
步骤2-6、通过计算网络输出值与理想期望输出值之间的损失函数,公式为:


式中表示所要分类的目标类别数,即输出层的节点个数;分别表示网络节点间的连接权值和偏置;表示第i类输出的实际值,表示第i类的理想期望输出值;
步...

【专利技术属性】
技术研发人员:孙林慧邹博顾婷
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利