一种基于3DCNN-LSTM的说话人识别方法及存储介质技术

技术编号：26422446 阅读：97 留言：0更新日期：2020-11-20 14:18

本发明专利技术请求保护一种基于3DCNN‑LSTM的说话人识别方法及存储介质，包括步骤：S1，将语音信号作半文本化处理，先将说话人语音作MFEC变换转换为语谱图；S2，通过堆叠多个连续帧的方法将语谱图处理成三维数据作为3DCNN的输入；S3，3DCNN从语谱图中提取说话人语音的时空特征；S4，通过LSTM提取时空特征的长期依赖关系，对卷积神经网络的输出进行时序排列学习说话人语音的上下文内容；S5，在模型训练的过程中各自更新自身的参数使得损失最小，通过不断迭代优化，最终使模型达到最优；S6，最后利用Softmax层进行说话人分类。本发明专利技术能够有效解决说话人语音低维特征丢失以及时空关联性弱的问题，提高说话人识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于3DCNN-LSTM的说话人识别方法及存储介质
本专利技术属于语音信号处理与模式识别领域，是一种基于3DCNN-LSTM的说话人识别方法。
技术介绍
说话人识别，又称声纹识别，是生物特征信号识别的重要组成部分之一。相较于目前流行的指纹、手形、视网膜、虹膜、面孔等生物特征识别方式，语音是人类交流过程中最方便的、最直接的方式，与此同时，说话人的语音采集较为方便，成本可控，说话人的隐私也可以得到较好的保护。说话人识别的任务是在已建立的说话人库中识别出是哪个说话人在讲话。说话人识别方法可以根据说话人的说话内容是否预定义，可分为文本相关和文本无关的说话人识别。也可以根据识别说话人的语音数量是否单一，可分为说话人确定和说话人辨认。其基本的系统框架主要分为特征提取以及说话人模型。特征提取是提取说话人语音信号特征矢量，这些特征矢量能够充分反映个体差异且能够长期保持稳定。说话人特征分为时域特征和变换域特征，常见的时域特征有幅度、能量、平均过零率等，但这类特征往往是将语音信号直接通过滤波器得到的特征矢量，处理过程简单，但...

【技术保护点】
1.一种基于3DCNN-LSTM的说话人识别方法，其特征在于，包括以下步骤：/nS1、获取语音信号，并对语音信号进行包括预加重、加窗分帧、快速傅里叶变换、MFEC变换在内的半文本化处理，MFEC变换指的是梅尔滤波器组、取对数能量谱、去离散余弦变化的梅尔倒谱系数特征；/nS2、将步骤S1处理后的语音信号通过堆叠多个连续帧的MFEC特征的方式将二维语谱图处理成三维数据，三维数据作为3DCNN的输入；3DCNN表示三维卷积神经网络；/nS3、3DCNN从语谱图中提取说话人语音的时空特征，3DCNN中设计了一种改进的3D卷积核，3D卷积核改进的点在于设计的内部结构参数，包括卷积核的个数，卷积的步长以及...

【技术特征摘要】
1.一种基于3DCNN-LSTM的说话人识别方法，其特征在于，包括以下步骤：
S1、获取语音信号，并对语音信号进行包括预加重、加窗分帧、快速傅里叶变换、MFEC变换在内的半文本化处理，MFEC变换指的是梅尔滤波器组、取对数能量谱、去离散余弦变化的梅尔倒谱系数特征；
S2、将步骤S1处理后的语音信号通过堆叠多个连续帧的MFEC特征的方式将二维语谱图处理成三维数据，三维数据作为3DCNN的输入；3DCNN表示三维卷积神经网络；
S3、3DCNN从语谱图中提取说话人语音的时空特征，3DCNN中设计了一种改进的3D卷积核，3D卷积核改进的点在于设计的内部结构参数，包括卷积核的个数，卷积的步长以及内置的BN层进行优化，用于提取深层次的特征，将三维数据经过3D卷积核的卷积池化后的数据是一种序列形式，引入LSTM网络进行时序特征提取；
S4、将3DNN的输出作为LSTM模型的输入，通过LSTM提取时空特征特征的长期依赖关系，对卷积神经网络的输出进行时序排列学习说话人语音的上下文内容；
S5、模型训练优化阶段，采用优化器设置为Adam，全连接层的节点数设置为3026，使用dropout方法，将其初始值设置为0.95并运用于每一层网络，并在计算损失函数的时候，选择交叉熵损失函数；
S6、使用测试集对训练后的模型验证，调整模型的各个参数，得到最终网络模型，最后利用Softmax层进行说话人分类。

2.根据权利要求1所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S1根据语音信号的短时平稳性，对其进行半文本化处理得到MFEC特征，具体步骤如下：
步骤A1：将语音信号通过一个高通滤波器，增强信号的高频部分，让语音信号趋于平坦，其传递函数为H(z)＝1-az-1，a取值0.95，预加重处理后的信号为x(t)；
步骤A2：将语音信号分割为短时的帧窗以减少语音的边缘效应，对预加重后的信号进行分帧，变为x(m,n)，n为帧长，m为帧的个数，采用汉明窗进行加窗：

加窗分帧后语音信号为：sw(m,n)＝x(m,n)*w(n)，其中每一帧含有N个采样点；
A3：接下来先将语音数据x(n)从时域变换到频域，对加窗后的信号进行快速傅里叶变换，得到的线性频谱E(k)为：

对进行傅里叶变换后的数据取其模量：
X(k)＝[E(k)]2
步骤A4：将经过FFT变换得到的线性频谱通过一个Mel滤波器组转换为Mel频谱，Mel滤波器组由一系列三角形的带通滤波器Hm(k)组成，滤波器的频率响应函数表达式为：

式中，f(m)表示中心频率；k表示频率；
步骤A5：对Mel滤波器的输出取对数，通过对数运算得到的对数频谱S(m)为：

3.根据权利要求2所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S2将处理后语音信号转换为二维语谱图，通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据，其处理步骤如下：
步骤B1：对长为m秒的说话人语音信号作每间隔n毫秒的语音帧叠加作半文本化处理；
步骤B2：通过MFEC变换将B1处理后的信号从时域数据变换到频域，得到S(m)二维语谱图；
步骤B3：将说话人的多条语音作B2处理后得到三维数据，再将三维数据与3D卷积核进行卷积提取深层次的说话人特征，通过堆叠多个连续帧的语谱图组成一个立方体，然后在立方体中与3D卷积核进行卷积操作，这里的输入数据设置为Time×Frequency×C，C表示说话人的话语量。

【专利技术属性】
技术研发人员：胡章芳，斯星童，罗元，徐博浩，熊润，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人