一种基于整合优化器的单声道语音分离方法技术

技术编号:26794761 阅读:29 留言:0更新日期:2020-12-22 17:11
本发明专利技术公开了一种基于整合优化器的单声道语音分离方法,克服了现有单通道语音分离系统的不足,提出将DNN优化器RAdam和LookAhead优化器相结合来求解语音分离模型消费函数的方法,该方法与传统基于随机梯度下降(SGD)和近来的Adam为梯度下降的语音分离系统相比较,在不增加系统的训练复杂度的情况下,它不仅可以防止语音分离模型的消费函数收敛于局部最优解,还可以提高消费函数的收敛速度,并且在优化器的超参数设置上不像传统的SGD那么要求苛刻;从而使语音分离的分离效果更佳,分离性能得到进一步提升,使分离后语音的可懂度和清晰度得到提高,可以更准确的分离混合在一起的语音信号。

【技术实现步骤摘要】
一种基于整合优化器的单声道语音分离方法
本专利技术涉及一种语音分离方法,具体的说是一种基于整合优化器的单声道语音分离方法,属于语音分离

技术介绍
语音作为物种之间交流的方式之一,随着语音信号处理这个热门领域的不断发展,人们对于高品质的语音的追求不断提升。然而我们所处的世界之中,有存在这各种各样的干扰,这样的语音会使人烦躁。良好的语音质量对人们的生活体验是意义非凡的。随着人工智能的飞速发展,人机交互也成为一个不可避免的部分,清晰度高和可懂度高的语音在这个交互过程中就显得尤为重要。正因如此,语音分离的研究也就显得的别重要。现实生活中有着各种各样不同的噪音,人们感兴趣的声音往往都是纯净的声音,然而现实中很难有完全纯净的声音,人们需要的声音其中都或多或少夹杂着噪音,降低了语音可懂度和信噪比。如何提高可懂度同时降低信噪比变成了一个非常关键的问题。语音分离就是从各种声音混合环境中,将目标说话人的语音分离出来,让其尽可能少失真少干扰,把目标说话人的语音质量提高,因此语音分离具有意义重大的研究价值和实际使用价值。随着近几年人工智能和深度学习的本文档来自技高网...

【技术保护点】
1.一种基于整合优化器的单声道语音分离方法,其特征在于,包括如下步骤:/n步骤1:对输入说话人1的纯净语音和说话人2的纯净语音进行采集、预处理并且得到两个说话人的语音的幅度谱来计算训练目标IRM,然后将混合语音作为输入来训练语音分离DNN网络;/n步骤2:在训练网络的反向传播阶段利用整合优化器对DNN模型的消费函数进行全局最优值的求解,通过对DNN网络参数的逐步更新,训练出性能更佳的DNN模型,进而完成语音分离的任务;/n步骤3:对所提出的基于整合优化器的单声道语音分离方法系统进行性能评估。/n

【技术特征摘要】
1.一种基于整合优化器的单声道语音分离方法,其特征在于,包括如下步骤:
步骤1:对输入说话人1的纯净语音和说话人2的纯净语音进行采集、预处理并且得到两个说话人的语音的幅度谱来计算训练目标IRM,然后将混合语音作为输入来训练语音分离DNN网络;
步骤2:在训练网络的反向传播阶段利用整合优化器对DNN模型的消费函数进行全局最优值的求解,通过对DNN网络参数的逐步更新,训练出性能更佳的DNN模型,进而完成语音分离的任务;
步骤3:对所提出的基于整合优化器的单声道语音分离方法系统进行性能评估。


2.根据权利要求1所述的一种基于整合优化器的单声道语音分离方法,其特征在于,所述步骤1包括:
步骤1.1:对各个说话人每一句输入的纯净语音连续时域信号进行采样,然后对其进行预加重、分帧、加窗等语音预处理操作,得到N帧信号;
步骤1.2:对预处理之后的语音信号信号进行短时傅里叶变换,然后得到每帧信号的幅度谱和相位谱;
步骤1.3:根据两个说话人的语音幅度谱幅度谱,计算出各自的训练目标IRM,用于DNN训练;
步骤1.4:将两个说话人的幅度谱在频域上进行叠加,作为DNN模型的输入。


3.根据权利要求书1所述的一种基于整合优化器的单声道语音分离方法,其特征在于,所述步骤2包括:
步骤2.1:首先对DNN网络的参数配置进行随机的初始化,然后将两说话人混合幅度谱作为输入对DNN网络进行训练,所述训练过程主要包括前向传播阶段和反向传播阶段,以获得训练完备的网络结构;
步骤2.2:在训练的反向传播过程中,将两种优化器进行整合的优化,求解DNN网络的消费函数的最优解,得到DNN每一层网络的最优权值和偏重,其具体的包含如下的步骤:
A.3个DNN隐层的权值和偏重进行随机的初始化;
B.每个隐层的前向传播过程中,利用每层输入与每层随机权重偏重向组合得...

【专利技术属性】
技术研发人员:孙林慧王灿李平安
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1