一种基于3D卷积的孪生网络声纹识别方法技术

技术编号:23894707 阅读:56 留言:0更新日期:2020-04-22 07:57
本发明专利技术公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia‑Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。

【技术实现步骤摘要】
一种基于3D卷积的孪生网络声纹识别方法
本专利技术属于声纹识别
,尤其涉及一种基于3D卷积的孪生网络声纹识别方法。
技术介绍
声纹识别(SpeakerVerification)是通过分析录音设备记录的说话人的语音特点来鉴别说话人身份的一种算法。声纹识别可进一步的分为文本相关声纹识别和文本无关声纹识别,文本相关声纹识别需要说话人说出预先指定的内容,而文本无关声纹识别对说话人的语音内容不作要求。现在声纹识别领域应用最多的框架是无监督高斯混合模型(GMM),GMM模型是一种统计模型,在数据不足的情况下,GMM模型很难建立说话人的空间分布,因此后来有学者提出基于GMM的高斯混合通用背景模型(GMM-UBM),GMM-UBM引入了背景模型,进一步提高了识别精度。一些基于GMM-UBM的方法包括i向量(i-vector)已经在声纹识别领域展现出了自己的高效性。尽管现有的方法可以高效的完成声纹识别的任务,但目前的算法仍有自己的缺点,其中最主要的是现有算法无法有效的利用说话人的独特的语音特点,这主要是因为GMM模型本身是非监督模型。当前,一些算法开始采用监督的模型来改进GMM等非监督算法,例如基于GMM-UBMs的SVM分类模型,PLDAi-vectors模型。还有一些学者收到深度学习的启发,讲DNNs网络从语义识别领域迁移到声纹识别领域,并取得了不错的效果。但是这些算法都没有考虑不同说话人可能存在相似语音,同一说话人也可能在不同状态下说话差异较大的情况。而在基于深度学习的声纹识别方法中,虽然卷积神经网络CNNs已经作为主要的特征提取的网络被广泛的应用,但是目前的CNNs特征提取网络知识利用的为一维卷积和二维卷积的方法。但是一维卷积和二维卷积的方法忽略语音信息的空域和时域特征,识别率不高。
技术实现思路
本专利技术的目的是提供一种用于声纹识别的基于3D卷积的孪生网络,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。本专利技术采用以下技术方案:一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,三维张量即为MFLC特征。Sia-Net网络:用于处理MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。进一步地,该Sia-Net网络:为两个,每一个Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层、一个池化层、一个Flatten层和一个全连接层。进一步地,该CNN网络包括依次相连接的三个全连接层和一个Softmax层。进一步地,该距离为欧氏距离。本专利技术还公开了上述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,包括如下步骤:步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;对所述三维张量进行随机两两配对组合,产生的配对组合共有个,其中:m为三维张量的个数;步骤1.2、搭建Sia-Net网络;步骤1.3、将所述步骤1.1中的配对组合输入Sia-Net网络,得到与之对应的第一S特征,多个所述第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;步骤1.4、构建CNN卷积网络;步骤1.5、将步骤1.3中的所述第一S特征输入到所述CNN卷积网络;步骤1.6、提取所述CNN卷积网络的倒数第二层输出的样本的第一D特征,多个所述样本的第一D特征组成的集合即为语音模型匹配数据库;然后,选择去除Softmax层的CNN卷积网络,并固定参数,得训练后的CNN卷积网络;步骤1.7、即得训练后的用于声纹识别的基于3D卷积的孪生网络。本专利技术还公开了一种基于3D卷积的孪生网络声纹识别方法,采用上述的Sia-Net网络和训练方法,包括如下步骤:步骤2.1、采集音频数据,提取出MFLC特征;步骤2.2、将所述MFLC特征输入到训练后的基于3D卷积的孪生网络中,由训练后的Sia-Net网络提取第二S特征,将第二S特征输入训练后的所述CNN卷积网络中,提取出第二D特征;步骤2.3、将所述第二D特征与所述语音模型匹配数据库中的样本的第一D特征进行匹配,确定并输出匹配结果。进一步地,步骤2.1的具体过程为:对音频数据进行频域变化:对输入的音频数据进行傅里叶变换,得到对应的矩阵数据。频域滤波:采用MEL滤波器组对所述矩阵数据进行频域滤波,得滤波后的数据。对滤波后的数据进行对数运算,得MFLC特征。进一步地,上述第二D特征和第一D特征均为余弦距离。本专利技术的有益效果是:MFLC特征通过舍弃DCT变换加强了特征之间的相关性,更有利于深度学习网络模型的处理。既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。【附图说明】图1为本专利技术中CNN网络的结构图;图2为本专利技术中的声纹识别方法的流程图。【具体实施方式】下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术实施例公开了一种用于声纹识别的基于3D卷积的孪生网络,Siamese-Net网络简写为Sia-Net网络,包括:特征提取单元:用于将音频数据转化为三维张量,三维张量即为MFLC特征。Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。该距离为欧氏距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试确定音频数据的说话人身份。该Sia-Net网络:为两个,每一个所述Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层、一个池化层、一个Flatten层和一个全连接层。该CNN网络包括依次相连接的三个全连接层和一个Softmax层。本专利技术还公开了上述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,包括如下步骤:步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;对三维张量进行随机两两配对组合,产生的配对组合共有个,其中:m为三维张量的个数。步骤1.2、搭建Sia-Net网络。步骤1.3、将步骤1.1中的配对组合输入Sia-Net网络,得到与之对应的第一S特征,多个第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;步骤1.4、构建CNN卷积网络;...

【技术保护点】
1.一种用于声纹识别的基于3D卷积的孪生网络,其特征在于,包括:/n特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征;/nSia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离;/nCNN网络:用于建立每一个说话人的模型库;/n预测单元:用于测试音频数据的说话人身份。/n

【技术特征摘要】
1.一种用于声纹识别的基于3D卷积的孪生网络,其特征在于,包括:
特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征;
Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离;
CNN网络:用于建立每一个说话人的模型库;
预测单元:用于测试音频数据的说话人身份。


2.根据权利要求1所述的一种用于声纹识别的基于3D卷积的孪生网络,其特征在于,所述Sia-Net网络:为两个,每一个所述Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层,一个池化层、一个Flatten层和一个全连接层。


3.根据权利要求1或2所述的一种用于声纹识别的基于3D卷积的孪生网络,其特征在于,所述CNN网络包括依次相连接的三个全连接层和一个Softmax层。


4.根据权利要求3所述的一种用于声纹识别的基于3D卷积的孪生网络,其特征在于,所述距离为欧氏距离。


5.根据权利要求1-4中任一项所述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,其特征在于,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;
对所述三维张量进行随机两两配对组合,产生的配对组合共有个,其中:m为三维张量的个数;
步骤1.2、搭建Sia-Net网络;
步骤1.3、将所述步骤1.1中的配对组合输入所述Sia-Net网络,得到与之对应的第一S特征,多个所述第一S特征...

【专利技术属性】
技术研发人员:付翔梅少辉杨学军耿云浩魏江
申请(专利权)人:中国人民解放军空军研究院通信与导航研究所西北工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1