当前位置: 首页 > 专利查询>王华锋专利>正文

一种基于RNN的声纹识别方法技术

技术编号:17347934 阅读:36 留言:0更新日期:2018-02-25 14:28
本发明专利技术提供了一种基于RNN的声纹识别方法,在获得去噪语音数据的MFCC特征及其一二阶差分后,使用循环神经网络来提取MFCC特征中说话人的高级特征,并将提取到的特征使用softmax分类器进行分类,最后使用朴素贝叶斯方法识别说话人。不同于传统方法的静音消除,本方法保留语音数据中的静音段,基于循环神经网络可以提取出与上下文相关的特征,针对语音数据即可提取出说话人语音的高级特征如说话方式,节奏等,使得特征信息更加完备,更加能够代表说话人。相比较于现有的基于高斯的声纹识别方法,本方法对语音数据要求相对较低,准确率更高,即使面对大数据时准确率依然保持很高水平,并且运行速度没有降低。

A voiceprint recognition method based on RNN

The invention provides a voice recognition method based on RNN in MFCC to obtain characteristics of noisy speech data and one or two order difference, using recurrent neural network to extract the MFCC features of the advanced features of the speaker, and the feature extraction to the use of softmax classifier, finally use Bayesian method to identify the speaker naive. Different from the traditional method to eliminate this method retains the mute, mute section voice data, recurrent neural network can extract features and context based on voice data can be extracted features such as advanced speaker speaking style, rhythm, made somecharacteristic information more complete, more able to represent the speaker. Compared with the voiceprint recognition method based on Gauss's current, the method of voice data is relatively low, higher accuracy, even in the face of big data accuracy remains a high level, and the running speed does not decrease.

【技术实现步骤摘要】
一种基于RNN的声纹识别方法
本专利技术提供了一种基于RNN的声纹识别方法,涉及深度学习、模式识别、语音信号处理领域。
技术介绍
信息技术的快速发展,如何准确认证一个人的身份、保护个人隐私和保障信息安全,成为当前亟需解决的问题。与传统身份认证方式相比,生物特征识别身份认证技术在使用过程中具有不会丢失、被盗或遗忘的特性;其不但快捷、方便,而且准确、可靠。声纹识别作为当前最热门的生物特征识别技术之一,在远程认证等应用领域中具有独特优势,受到了越来越多的关注,微信已经启用了声音锁验证登录方式,全球首款采用声纹识别技术进行解锁的联想乐phoneA586开创了声纹识别技术应用的先河,巴克莱银行旗下私人银行部门巴巴克莱财富(BarclaysWealth)的用户通过自己的声音完成身份验证。相较于人脸与指纹,声纹识别一直比较低调,公众认知度并不高。实际上,由于声纹识别的易用性高、用户接受度高、采集成本低等特点,近几年声纹识别一直在低调而快速地发展着,应用范围不断扩大。包括苹果,谷歌,微软,百度,科大讯飞在内的全球各大公司在语音及声纹识别上的投入年年攀升,据公开数据显示,预计到2020年,全球语音相关的模式识别的市场规模将会从2015年的61.9亿美元增长到200亿美元,可以说语音相关的模式识别在未来市场中的发展潜力非常巨大。常见的声纹识别方法主要有:基于信号处理的声纹识别方法、基于声学特征和模式匹配的声纹识别方法、基于高斯混合模型的声纹识别方法、基于深度学习的声纹识别方法。基于信号处理的方法:这是声纹识别技术发展中,应用最早的方法。该方法通过使用信号处理技术中一些技术方法计算出语音数据在信号学的参数,然后进行模板匹配、统计方差分析等。该方法对语音数据极为敏感,准确率很低,识别效果很不理想。基于声学特征和模式匹配的识别方法:从20世纪70年代末至80年代末,说话人识别的研究重点转向对声学特征参数的处理以及新的模式匹配方法上。研究者相继提出了LPC谱系数、LSP谱系数、感知线性预测系数、梅尔倒谱系数等说话人识别特征参数。此时,动态时间规整法、矢量量化法、支持向量机、人工神经网络法等技术在语音识别领域得到了广泛的运用,也成为说话人识别的核心技术。在以上的几种说话人识别模型算法中,对语音的长度、文本及语音的信道等方面都具有一定的局限性,而在实际应用中短语音和跨信道问题的普遍存在,其中跨信道问题对声纹识别系统的性能带来的影响最大。基于高斯混合模型的识别方法:20世纪90年代以后,高斯混合模型(Gaussianmixturemodel,GMM)以其简单、灵活、有效以及较好的鲁棒性,迅速成为目前与文本无关的说话人识别中的主流技术,将说话人识别研究带入一个新的阶段。GMM模型不同于直接用语音的特征建立模型的方式,它是一种概率模型,建模的依据来源于特征的概率分布情况。同时判决方式也发生了改变,它是根据似然得分来判决模型的相似性。但其对语音数据量要求很大,对信道环境噪声非常敏感,无法满足真实场景下的要求。基于深度学习的声纹识别方法:该类方法使用大量的训练样本进行声纹特征的自动学习,能够提取到优秀的具有区分度的声纹特征。但是,现有的基于深度学习的方法并未考虑语音信号的上下文相关的本质,提取到的特征并不能很好地代表说话人,并没有完全发挥深度学习的优势。为了解决上述问题,本专利技术提供了一种基于RNN的声纹识别方法,该方法能够提取高层次的语音特征,准确高效的完成声纹识别任务。
技术实现思路
本专利技术解决的技术问题是:克服了现有声纹识别方法中未考虑到语音数据的上下文相关性,提取到的特征并不能很好地代表说话人,没有发挥出深度学习强大的提取特征的能力等问题。提供了一种基于循环神经网络(RecurrentNeuralNetworks,简称RNN)的声纹识别方法。本专利技术采用的技术方案为:包括以下四个步骤:步骤(1)、首先采用谱相减法对输入语音数据进行去噪处理,此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;将消除信道噪声后的纯语音数据作为训练数据的输入。步骤(2)、然后对步骤(1)的得到纯语音数据按照帧长25ms,帧移10ms进行分帧,每一条语音数据能够分为成百上千帧语音信号,分别计算每一帧语音信号的MFCC特征参数,选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;将每64帧语音信号的39特征合并成为一个64*39的二维数据,不足64帧的语音信号丢弃,二维数据的标签为说话人的身份表示,以此作为神经网络的输入。步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中。循环神经网络共有64个LSTM单元;每一个LSTM单元有256个隐藏的神经元,在时间序列上展开为64步,每个时间序列都是同一个网络模型;所述循环神经网络采用单向循环神经网络,所以最后一个LSTM单元会包含前面所有LSTM单元的信息,将最后一个LSTM单元的输出作为最终的语音特征进入到识别阶段。步骤(4)、对步骤(3)得到的语音特征进行识别,确定该语音数据所属的说话人。进一步地,步骤(1)中所述的谱相减法去噪的好处在于,只是消除了信道噪声,并没有消除其中的静音片段。因为静音片段与有声片段的连接处可以很好的体现说话人的高级特征如说话方式,节奏等,后续正是需要使用循环神经网络来提取这些高级体征。进一步地,步骤(2)中的MFCC特征考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上,其在人工语音特征方面表现极为突出。而标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述(即:一二阶差分反映语音的动态特征)。动、静态特征结合,可以提高系统的识别性能。进一步地,步骤(3)中提出了一种全新的技术手段——将循环神经网络(RNN)应用于说话人识别之中。语音数据是连续数据,上下文相关性很强。而RNN提取上下文相关特征的能力非常突出,已经广泛应用于自然语言处理,语音识别领域。使用RNN在传统语音特征的基础上提起出包含上下文信息的高级特征,使得特征的完备性更好,代表性更强。进一步地,步骤(4)中对语音特征进行识别,包括对64帧语音特征拼接而成的语音段进行分类。可以使用softmax作为分类器,对64帧语音特征拼接而成的语音段进行分类。之后再使用朴素贝叶斯方法对整段语音的说话人进行确认,即整段语音中所有分段语音所属说话人频次最高的即为整段语音的说话人。由于一段语音可以得到多个语音特征,即一段语音可能会得到多个结果,根据朴素贝叶斯方法,一段语音所得到的多个语音特征中,由softmax得到的分类结果最多的说话人即确认为这段语音所属的说话人。本专利技术的原理在于:本专利技术提供了一种基于RNN的声纹识别方法,克服了现有的基于深度学习的方法并未考虑语音信号的上下文相关的本质,提取到的特征并不能很好地代表说话人,并没有完全发挥深度学习的优势等缺点,具有适应性强,性能良好,结果准确率高的特点。本方法包含四个步骤:首先采用谱相减法对输入语音数据进行去噪处理,将得到的消除信道噪声的纯语音数据作为训练数据的输入。对纯语音数据按照帧长25m本文档来自技高网
...
一种基于RNN的声纹识别方法

【技术保护点】
一种基于RNN的声纹识别方法,其特征在于:包括如下步骤:步骤(1)、采用谱相减法对输入语音数据进行去噪处理,此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;将消除信道噪声后的纯语音数据作为训练数据的输入;步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms,帧移10ms进行分帧,每一条语音数据能够分为成百上千帧语音信号,分别计算每一帧语音信号的MFCC特征参数,选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数,不足64帧的语音信号丢弃,由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示,以此作为神经网络的输入;步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中;循环神经网络共有64个LSTM单元;每一个LSTM单元有256个隐藏的神经元,在时间序列上展开为64步,每个时间序列都是同一个网络模型;所述循环神经网络采用单向循环神经网络,最后一个LSTM单元会包含前面所有LSTM单元的信息,将最后一个LSTM单元的输出作为最终的语音特征进入到识别阶段;步骤(4)、对步骤(3)得到的语音特征进行识别,使用朴素贝叶斯方法确定该语音数据所属的说话人。...

【技术特征摘要】
1.一种基于RNN的声纹识别方法,其特征在于:包括如下步骤:步骤(1)、采用谱相减法对输入语音数据进行去噪处理,此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;将消除信道噪声后的纯语音数据作为训练数据的输入;步骤(2)、对步骤(1)的得到纯语音数据按照帧长25ms,帧移10ms进行分帧,每一条语音数据能够分为成百上千帧语音信号,分别计算每一帧语音信号的MFCC特征参数,选择前13维MFCC特征参数并继续计算其一阶和二阶差分,分别提取前13维MFCC特征拼接成为一个39维的特征向量,由此作为这一帧语音信号的特征参数;将每64帧语音信号的39维特征合并成为一个64*39的二维语音声学特征参数,不足64帧的语音信号丢弃,由同一个说话人说出的语音数据所产生的所有二维语音声学特征参数的标签为均为同一说话人的身份表示,以此作为神经网络的输入;步骤(3)、把步骤(2)获得二维数据作为输入加入到循环神经网络的训练中;循环神经网络共有64个LSTM单元;每一个LSTM单元有256...

【专利技术属性】
技术研发人员:冯毅夫王华锋徐雷杜俊逸付明霞马晨南齐一凡潘海侠
申请(专利权)人:王华锋
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1