The invention provides a voice recognition method based on RNN in MFCC to obtain characteristics of noisy speech data and one or two order difference, using recurrent neural network to extract the MFCC features of the advanced features of the speaker, and the feature extraction to the use of softmax classifier, finally use Bayesian method to identify the speaker naive. Different from the traditional method to eliminate this method retains the mute, mute section voice data, recurrent neural network can extract features and context based on voice data can be extracted features such as advanced speaker speaking style, rhythm, made somecharacteristic information more complete, more able to represent the speaker. Compared with the voiceprint recognition method based on Gauss's current, the method of voice data is relatively low, higher accuracy, even in the face of big data accuracy remains a high level, and the running speed does not decrease.
【技术实现步骤摘要】
一种基于RNN的声纹识别方法
本专利技术提供了一种基于RNN的声纹识别方法,涉及深度学习、模式识别、语音信号处理领域。
技术介绍
信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题。与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、可靠。声纹识别作为当前最热门的生物特征识别技术之一,在远程认证等应用领域中具有独特优势,受到了越来越多的关注,微信已经启用了声音锁验证登录方式,全球首款采用声纹识别技术进行解锁的联想乐phoneA586开创了声纹识别技术应用的先河,巴克莱银行旗下私人银行部门巴巴克莱财富(BarclaysWealth)的用户通过自己的声音完成身份验证。相较于人脸与指纹,声纹识别一直比较低调,公众认知度并不高。实际上,由于声纹识别的易用性高、用户接受度高、采集成本低等特点,近几年声纹识别一直在低调而快速地发展着,应用范围不断扩大。包括苹果,谷歌,微软,百度,科大讯飞在内的全球各大公司在语音及声纹识别上的投入年年攀升,据公开数据显示,预计到2020年,全球语音相关的模式识别的市场规模将会从2015年的61.9亿美元增长到200亿美元,可以说语音相关的模式识别在未来市场中的发展潜力非常巨大。常见的声纹识别方法主要有:基于信号处理的声纹识别方法、基于声学特征和模式匹配的声纹识别方法、基于高斯混合模型的声纹识别方法、基于深度学习的声纹识别方法。基于信号处理的方法:这是声纹识别技术发展中,应用最早的方法。该方法通过使用信号处理技术中一些技术方法 ...
【技术保护点】
一种基于RNN的声纹识别方法,其特征在于:包括如下步骤:步骤(1)、采用谱相减法对输入语音数据进行去噪处理,此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;将消除信道噪声后的纯语音数据作为训练数据的输入;步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms,帧移10ms进行分帧,每一条语音数据能够分为成百上千帧语音信号,分别计算每一帧语音信号的MFCC特征参数,选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数,不足64帧的语音信号丢弃,由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示,以此作为神经网络的输入;步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中;循环神经网络共有64个LSTM单元;每一个LSTM单元有256个隐藏的神经元,在时间序列上展开为64步,每个时间序列都是同一个网络模型;所述循环神经网络采用单向循环神经网络,最后一个L ...
【技术特征摘要】
1.一种基于RNN的声纹识别方法,其特征在于:包括如下步骤:步骤(1)、采用谱相减法对输入语音数据进行去噪处理,此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;将消除信道噪声后的纯语音数据作为训练数据的输入;步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms,帧移10ms进行分帧,每一条语音数据能够分为成百上千帧语音信号,分别计算每一帧语音信号的MFCC特征参数,选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数,不足64帧的语音信号丢弃,由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示,以此作为神经网络的输入;步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中;循环神经网络共有64个LSTM单元;每一个LSTM单元有256...
【专利技术属性】
技术研发人员:冯毅夫,王华锋,徐雷,杜俊逸,付明霞,马晨南,齐一凡,潘海侠,
申请(专利权)人:王华锋,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。