一种基于RNN的声纹识别方法技术

技术编号：17347934 阅读：69 留言：0更新日期：2018-02-25 14:28

本发明专利技术提供了一种基于RNN的声纹识别方法，在获得去噪语音数据的MFCC特征及其一二阶差分后，使用循环神经网络来提取MFCC特征中说话人的高级特征，并将提取到的特征使用softmax分类器进行分类，最后使用朴素贝叶斯方法识别说话人。不同于传统方法的静音消除，本方法保留语音数据中的静音段，基于循环神经网络可以提取出与上下文相关的特征，针对语音数据即可提取出说话人语音的高级特征如说话方式，节奏等，使得特征信息更加完备，更加能够代表说话人。相比较于现有的基于高斯的声纹识别方法，本方法对语音数据要求相对较低，准确率更高，即使面对大数据时准确率依然保持很高水平，并且运行速度没有降低。

A voiceprint recognition method based on RNN

The invention provides a voice recognition method based on RNN in MFCC to obtain characteristics of noisy speech data and one or two order difference, using recurrent neural network to extract the MFCC features of the advanced features of the speaker, and the feature extraction to the use of softmax classifier, finally use Bayesian method to identify the speaker naive. Different from the traditional method to eliminate this method retains the mute, mute section voice data, recurrent neural network can extract features and context based on voice data can be extracted features such as advanced speaker speaking style, rhythm, made somecharacteristic information more complete, more able to represent the speaker. Compared with the voiceprint recognition method based on Gauss's current, the method of voice data is relatively low, higher accuracy, even in the face of big data accuracy remains a high level, and the running speed does not decrease.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RNN的声纹识别方法
本专利技术提供了一种基于RNN的声纹识别方法，涉及深度学习、模式识别、语音信号处理领域。
技术介绍
信息技术的快速发展，如何准确认证一个人的身份、保护个人隐私和保障信息安全，成为当前亟需解决的问题。与传统身份认证方式相比，生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性；其不但快捷、方便，而且准确、可靠。声纹识别作为当前最热门的生物特征识别技术之一，在远程认证等应用领域中具有独特优势，受到了越来越多的关注，微信已经启用了声音锁验证登录方式，全球首款采用声纹识别技术进行解锁的联想乐phoneA586开创了声纹识别技术应用的先河，巴克莱银行旗下私人银行部门巴巴克莱财富(BarclaysWealth)的用户通过自己的声音完成身份验证。相较于人脸与指纹，声纹识别一直比较低调，公众认知度并不高。实际上，由于声纹识别的易用性高、用户接受度高、采集成本低等特点，近几年声纹识别一直在低调而快速地发展着，应用范围不断扩大。包括苹果，谷歌，微软，百度，科大讯飞在内的全球各大公司在语音及声纹识别上的投入年年攀升，据公开数据显示，预计到20...
一种基于RNN的声纹识别方法

【技术保护点】
一种基于RNN的声纹识别方法，其特征在于：包括如下步骤：步骤(1)、采用谱相减法对输入语音数据进行去噪处理，此处消除的是信道噪声，信道噪声是由录音设备所导致的噪声；将消除信道噪声后的纯语音数据作为训练数据的输入；步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms，帧移10ms进行分帧，每一条语音数据能够分为成百上千帧语音信号，分别计算每一帧语音信号的MFCC特征参数，选择前13维MFCC特征参数并继续计算其一阶和二阶差分，分别提取前13维MFCC特征拼接成为一个39维的特征向量，由此作为这一帧语音信号的特征参数；将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数，...

【技术特征摘要】
1.一种基于RNN的声纹识别方法，其特征在于：包括如下步骤：步骤(1)、采用谱相减法对输入语音数据进行去噪处理，此处消除的是信道噪声，信道噪声是由录音设备所导致的噪声；将消除信道噪声后的纯语音数据作为训练数据的输入；步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms，帧移10ms进行分帧，每一条语音数据能够分为成百上千帧语音信号，分别计算每一帧语音信号的MFCC特征参数，选择前13维MFCC特征参数并继续计算其一阶和二阶差分，分别提取前13维MFCC特征拼接成为一个39维的特征向量，由此作为这一帧语音信号的特征参数；将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数，不足64帧的语音信号丢弃，由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示，以此作为神经网络的输入；步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中；循环神经网络共有64个LSTM单元；每一个LSTM单元有256...

【专利技术属性】
技术研发人员：冯毅夫，王华锋，徐雷，杜俊逸，付明霞，马晨南，齐一凡，潘海侠，
申请(专利权)人：王华锋，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人