一种基于CNN融合特征的说话人辨认系统技术方案

技术编号：22566724 阅读：39 留言：0更新日期：2019-11-16 12:45

本发明专利技术公开了一种基于CNN融合特征的说话人辨认系统，该系统对输入语音信号进行预处理；再利用语谱图对卷积神经网络进行训练；最后寻找最优特征后进行特征融合。该方法克服了现有语音说话人识别系统的不足，与传统基于单一深度特征的说话人系统相比较，在不增加系统训练复杂度的前提下，可以从深浅不同的层次对说话人身份信息进行更加全面地描述，从而使得系统的识别率更高，性能得到进一步提升，可以很好地应用于智能说话人身份信息的辨认。

A speaker recognition system based on CNN fusion features

The invention discloses a speaker identification system based on CNN fusion features, which preprocesses the input speech signal, trains convolutional neural network by using speech spectrum, and finally performs feature fusion after finding the optimal features. Compared with the traditional speaker system based on single depth feature, this method can describe the speaker's identity information more comprehensively from different levels without increasing the training complexity of the system, so that the recognition rate of the system is higher, the performance is further improved, and the system can be well applied Identification of identity information of Yu intelligent speaker.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CNN融合特征的说话人辨认系统
本专利技术涉及一种基于CNN融合特征的说话人辨认系统，属于语音识别

技术介绍
在过去的近二十年里，随着人工智能的飞速发展，声纹、虹膜、指纹、人脸识别等一些生物识别技术已经引起了广泛的关注。其中语音是人们日常生活中交流和传递信息的一种重要方式，它是说话人的健康、情感、身份等信息的重要载体。当一个人的声道结构被确定后，他就会有自己独特的特征。因此，这就使得自动说话人识别变为可能。说话人识别也叫声纹识别，是根据发音人的语音片段来进行身份识别。一般来说，在说话人识别领域，它主要包含两个重要的分支：说话人辨认和说话人确认。前者主要是通过与待识别的说话人特征进行比较，从而选择出相似度最高的样本，它是一个多分类问题；后者是判决待测语音是否属于某个特定训练好的说话人，它是一个二元分类问题。说话人识别系统主要包含三部分：语音数据采集与预处理、说话人身份特征的提取以及分类识别。其中说话人特征信息的提取是最重要的部分，特征的好坏直接影响着系统的识别率。因此，这也是本专利技术的研究重点。目前，用于说话人系统的特征参数主要可分为传统特征和深度特征。传统特征主要包含有MFCC,LPCC,LPC,PLP等，在以前研究领域中，上述特征参数都在一定范围内表现出良好的性能，但是它们反映的都是语音信号浅层的身份信息，不能很好地挖掘更深层次的特征和适应当前大数据的应用场景。随着计算机硬件处理能力的进一步提高，设计和应用深度神经网络（DeepNeuralNetwork,DNN）已经成为可能。它主要是模...

【技术保护点】
1.一种基于CNN融合特征的说话人辨认系统，其特征在于，包括以下步骤：/n步骤1、对输入语音信号进行预处理并获取语谱图；/n步骤2、利用语谱图对卷积神经网络进行训练；/n步骤3、寻找最优的单层特征并构建新的卷积神经网络对特征进行融合，将新的融合特征作为输入从而完成说话人识别。/n

【技术特征摘要】
1.一种基于CNN融合特征的说话人辨认系统，其特征在于，包括以下步骤：
步骤1、对输入语音信号进行预处理并获取语谱图；
步骤2、利用语谱图对卷积神经网络进行训练；
步骤3、寻找最优的单层特征并构建新的卷积神经网络对特征进行融合，将新的融合特征作为输入从而完成说话人识别。

2.根据权利要求1所述的一种基于CNN融合特征的说话人辨认系统，其特征在于，步骤1的操作步骤包括：
步骤1-1、输入一段.wav格式的语音信号，对每一句输入的时域连续语音信号进行采样，然后对其进行预处理，使每段语音得到M帧信号；
步骤1-2、对预处理后的信号进行傅里叶变换，每帧数据按时序连接形成频谱，对频率段实施对数非线性缩放，将频率域转换成对数领域，得到每段语音的语谱图。

3.根据权利要求2所述的一种基于CNN融合特征的说话人辨认系统，其特征在于，步骤1-1中，所述预处理包括预加重、分帧、加窗预处理技术。

4.根据权利要求2所述的一种基于CNN融合特征的说话人辨认系统，其特征在于，步骤1-2的操作步骤为对预处理后的每帧语音信号进行短时傅里叶变换，得到信号，然后使每帧信号按照时序连接形成频谱得到周期图，公式为：

其中m表示总的帧数，n表示每帧的帧长；
然后根据得到的周期图进行取对数运算，得到，计算式如下：

在将和根据时间和频率刻度变换为和，将画成二维图形即得到了信号的语谱图。

5.根据权利要求1所述的一种基于CNN融合特征的说话人辨认系统，其特征在于，步骤2的操作步骤包括：
步骤2-1、对CaffeNet网络神经元结点之间的连接权值进行初始化，并将步骤1得到的语谱图尺寸转为统一大小；
步骤2-2、在卷积层，利用卷积核对步骤2-1预处理后的语谱图进行卷积操作；
步骤2-3、卷积操作后，在卷积层的后面加入一个非线性的激活函数，所述非线性激活函数为ReLU函数；
步骤2-4、在池化层，利用平均池化函数对步骤2-3得到的图形进行处理；
步骤2-5、对处理后的图形，通过全连接层的前向传播，得到网络输出值y；
步骤2-6、通过计算网络输出值与理想期望输出值之间的损失函数，公式为：

；
式中表示所要分类的目标类别数，即输出层的节点个数；分别表示网络节点间的连接权值和偏置；表示第i类输出的实际值，表示第i类的理想期望输出值；
步...

【专利技术属性】
技术研发人员：孙林慧，邹博，顾婷，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人