当前位置: 首页 > 专利查询>中国人民解放军空军研究院通信与导航研究所专利>正文

一种基于3D卷积的孪生网络声纹识别方法技术

技术编号：23894707 阅读：56 留言：0更新日期：2020-04-22 07:57

本发明专利技术公开了一种用于声纹识别的基于3D卷积的孪生网络，包括：特征提取单元：用于将音频数据转化为三维张量，所述三维张量即为MFLC特征。Sia‑Net网络：用于处理所述的MFLC特征，缩短同一说话人之间数据的特征距离，增大不同说话人之间数据的特征距离。CNN网络：用于建立每一个说话人的模型库。预测单元：用于测试音频数据的说话人身份。使用该网络进行声纹识别，既可以对语音信息进行充分的监督学习，还可以兼顾语音信息的时域信息，进一步提高了声纹识别的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于3D卷积的孪生网络声纹识别方法
本专利技术属于声纹识别
，尤其涉及一种基于3D卷积的孪生网络声纹识别方法。
技术介绍
声纹识别(SpeakerVerification)是通过分析录音设备记录的说话人的语音特点来鉴别说话人身份的一种算法。声纹识别可进一步的分为文本相关声纹识别和文本无关声纹识别，文本相关声纹识别需要说话人说出预先指定的内容，而文本无关声纹识别对说话人的语音内容不作要求。现在声纹识别领域应用最多的框架是无监督高斯混合模型(GMM)，GMM模型是一种统计模型，在数据不足的情况下，GMM模型很难建立说话人的空间分布，因此后来有学者提出基于GMM的高斯混合通用背景模型(GMM-UBM)，GMM-UBM引入了背景模型，进一步提高了识别精度。一些基于GMM-UBM的方法包括i向量(i-vector)已经在声纹识别领域展现出了自己的高效性。尽管现有的方法可以高效的完成声纹识别的任务，但目前的算法仍有自己的缺点，其中最主要的是现有算法无法有效的利用说话人的独特的语音特点，这主要是因为GMM模型本身是非监督模型。当前，一些算法开始采用监督的模型来改进GMM等非监督算法，例如基于GMM-UBMs的SVM分类模型，PLDAi-vectors模型。还有一些学者收到深度学习的启发，讲DNNs网络从语义识别领域迁移到声纹识别领域，并取得了不错的效果。但是这些算法都没有考虑不同说话人可能存在相似语音，同一说话人也可能在不同状态下说话差异较大的情况。而在基于深度学习的声纹识别方法中，虽然卷积神经网络CNN

【技术保护点】
1.一种用于声纹识别的基于3D卷积的孪生网络，其特征在于，包括：/n特征提取单元：用于将音频数据转化为三维张量，所述三维张量即为MFLC特征；/nSia-Net网络：用于处理所述的MFLC特征，缩短同一说话人之间数据的特征距离，增大不同说话人之间数据的特征距离；/nCNN网络：用于建立每一个说话人的模型库；/n预测单元：用于测试音频数据的说话人身份。/n

【技术特征摘要】
1.一种用于声纹识别的基于3D卷积的孪生网络，其特征在于，包括：
特征提取单元：用于将音频数据转化为三维张量，所述三维张量即为MFLC特征；
Sia-Net网络：用于处理所述的MFLC特征，缩短同一说话人之间数据的特征距离，增大不同说话人之间数据的特征距离；
CNN网络：用于建立每一个说话人的模型库；
预测单元：用于测试音频数据的说话人身份。

2.根据权利要求1所述的一种用于声纹识别的基于3D卷积的孪生网络，其特征在于，所述Sia-Net网络：为两个，每一个所述Sia-Net网络均包括：依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层，一个池化层、一个Flatten层和一个全连接层。

3.根据权利要求1或2所述的一种用于声纹识别的基于3D卷积的孪生网络，其特征在于，所述CNN网络包括依次相连接的三个全连接层和一个Softmax层。

4.根据权利要求3所述的一种用于声纹识别的基于3D卷积的孪生网络，其特征在于，所述距离为欧氏距离。

5.根据权利要求1-4中任一项所述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法，其特征在于，包括如下步骤：
步骤1.1、构建训练样本数据集：选取多个不同的音频数据，将每一个音频数据转化为一个与之对应的三维张量，所述三维张量即为MFLC特征；多个所述三维张量即组成训练样本数据集；
对所述三维张量进行随机两两配对组合，产生的配对组合共有个，其中：m为三维张量的个数；
步骤1.2、搭建Sia-Net网络；
步骤1.3、将所述步骤1.1中的配对组合输入所述Sia-Net网络，得到与之对应的第一S特征，多个所述第一S特征...

【专利技术属性】
技术研发人员：付翔，梅少辉，杨学军，耿云浩，魏江，
申请(专利权)人：中国人民解放军空军研究院通信与导航研究所，西北工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人