【技术实现步骤摘要】
一种基于RNN的语音降噪方法及语音识别方法
本专利技术涉及一种语音降噪方法及语音识别方法,属于语音识别领域。
技术介绍
在人类众多的生物特征中,利用说话人的语音特征进行身份认证具有诸多优点:通过区分说话人声器官存在的先天差异进行身份认证不涉及个人隐私,容易被采集者接受,相比于虹膜、指纹、DNA等生物特征,语音特征的采集成本较为低廉,不需要复杂昂贵的设备便可以完成语音特征的采集;可利用通话设备进行远程的语音特征提取,采集数据不受地域限制。通过对语音特征的提取分析,确定说话人身份的过程被称为说话人识别,也被称为声纹识别。如今,说话人识别技术己被广泛应用于人类生活的各个领域。在电话银行、证券交易、网上支付等金融领域,银行卡不能识别所有人的特征,任何掌握银行卡密码的人都将被银行卡“识别”为所有人,容易给用户的财产造成重大损失。且密码容易遗忘,也会给用户的资金操作带来许多不便。如果预先采用语音进行说话人识别,将用户的语音信息作为一种隐形的密码,向户主确认是否有人代替其进行各类交易。将大大地增加用户账户的安全性,避免此类案件的发生。目前美国的亚马逊电子商务平台已开通使用说话人 ...
【技术保护点】
1.一种基于RNN的语音降噪方法,其特征在于,包括:S1、建立DRNN降噪模型:在RNN的基础上增加两层隐含层,所述两层隐含层上无连接层,RNN原有的隐含层位于增加的两层隐含层中间,三层隐含层位于输入层和输出层之间;S2、将带噪声的语音训练信号X进行补零,使维度保持一致,并将补零后的信号分成N组,每组三个数据,将分组后的数据输入到DRNN降噪模型中进行训练,确定DRNN降噪模型的参数;S3、利用确定参数的DRNN降噪模型对语音信号或特征参数进行降噪。
【技术特征摘要】
1.一种基于RNN的语音降噪方法,其特征在于,包括:S1、建立DRNN降噪模型:在RNN的基础上增加两层隐含层,所述两层隐含层上无连接层,RNN原有的隐含层位于增加的两层隐含层中间,三层隐含层位于输入层和输出层之间;S2、将带噪声的语音训练信号X进行补零,使维度保持一致,并将补零后的信号分成N组,每组三个数据,将分组后的数据输入到DRNN降噪模型中进行训练,确定DRNN降噪模型的参数;S3、利用确定参数的DRNN降噪模型对语音信号或特征参数进行降噪。2.根据权利要求1所述的基于RNN的语音降噪方法,其特征在于,所述S2包括:S21、将带噪声的语音训练信号X进行补零,使维度保持一致,并将补零后信号分成N组,每组三个数据;S22、将分组后的数据输入到DRNN降噪模型中进行正向传递;S23、DRNN降噪模型输出信号,获取输出信号和带噪声的语音训练信号X中的纯净信号的损失函数,将损失函数与预设值进行对比,若大于预设值,则参照RNN的原理求DRNN降噪模型的参数关于损伤函数的偏导,更新DRNN降噪模型的参数,转入S22,若损失函数小于预设值,训练结束。3.根据权利要求2所述的基于RNN的语音降噪方法,其特征在于,所述S2中,补零的方法为将带噪声的语音训练信号X第一位和最后一位各补一个零。4.根据权利要求3所述的基于RNN的语音降噪方法,其特征在于,S2中,将分组后的数据输入到DRNN降噪模型中正向传递,Xi表示输入的带噪声语音训...
【专利技术属性】
技术研发人员:兰朝凤,韩旭,兰袁硕,刘岩,赵宏运,刘春东,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。