【技术实现步骤摘要】
生成语音增强模型的方法和设备以及语音增强方法和设备
[0001]本申请涉及音频处理技术,更具体地,涉及一种用于生成语音增强模型的方法和设备,以及一种语音增强方法和设备。
技术介绍
[0002]语音增强是指当语音信号被各种噪声干扰、甚至淹没时,抑制或降低噪声干扰并从音频信号中提取有用语音信号的技术。语音增强广泛地应用于诸如移动电话、视频或电话会议系统、语音识别以及助听器等领域。近年来,随着神经网络技术的广泛使用,深度神经网络技术应用于语音增强给语音增强技术带来了显著的提升。然而,传统的深度神经网络模型通常需要帧长超过8毫秒(例如,10毫秒或者16毫秒)的音频作为输入,加上算法本身的延迟,使得总延迟会超过20毫秒。过长的延迟使得深度神经网络模型无法应用于对实时性要求较高的设备(例如,助听器)。此外,深度神经网络模型的高计算量也限制了其在低功耗设备中的应用。
[0003]因此,有必要提供一种语音增强模型来解决现有技术存在的上述问题。
技术实现思路
[0004]本申请的一个目的在于提供一种生成语音增强模型的方法和装置,以及使用该语音增强模型进行语音增强的方法和装置,其兼具低功耗和低延时的特点。
[0005]在本申请的一个方面,提供了一种用于生成语音增强模型的方法。所述用于生成语音增强模型的方法包括:获取音频训练数据,所述音频训练数据包括有噪声的输入音频和与所述有噪声的输入音频相对应的无噪声的输出音频;获取第一模型和第二模型,其中所述第一模型为深度神经网络模型,所述第二模型在运行时的资源占用少于 ...
【技术保护点】
【技术特征摘要】
1.一种用于生成语音增强模型的方法,其特征在于,所述用于生成语音增强模型的方法包括:获取音频训练数据,所述音频训练数据包括有噪声的输入音频和与所述有噪声的输入音频相对应的无噪声的输出音频;获取第一模型和第二模型,其中所述第一模型为深度神经网络模型,所述第二模型在运行时的资源占用少于所述第一模型;基于所述音频训练数据训练所述第一模型和所述第二模型,其包括:从所述输入音频获取帧长为M的第一音频;将所述第一音频输入至所述第一模型进行处理,以获得第一输出结果;从所述输入音频获取帧长为N的第二音频,所述第二音频在所述第一音频之后,并且N<M;将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果;和基于所述第二输出结果与所述输出音频更新所述第一模型和所述第二模型的参数以获得训练后的第一模型和训练后的第二模型;以及基于所述训练后的第一模型和所述训练后的第二模型生成语音增强模型。2.根据权利要求1所述的方法,其特征在于,所述第二模型为深度神经网络模型,并且所述第二模型的参数少于所述第一模型的参数。3.根据权利要求2所述的方法,其特征在于,所述第二模型的参数与所述第一模型的参数的数量比小于1/2。4.根据权利要求2所述的方法,其特征在于,所述第一模型为卷积循环神经网络模型,所述第二模型为RNNoise模型。5.根据权利要求2所述的方法,其特征在于,基于所述音频训练数据训练所述第一模型和所述第二模型还包括:从所述输入音频获取所述第二音频之前的帧长为P的第三音频;和将所述第三音频与所述第二音频组合形成帧长为P+N的第四音频;其中,将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果包括:将所述第四音频与所述第一输出结果输入至所述第二模型进行处理以获得帧长为P+N的中间输出结果;从所述中间输出结果中获取与所述第二音频对应的长度为N的结果作为所述第二输出结果。6.根据权利要求1所述的方法,其特征在于,所述第二模型包括数字信号处理模型和简化的神经网络模型。7.根据权利要求6所述的方法,其特征在于,所述第二模型包括能量频谱估计模型和全连接层。8.根据权利要求6所述的方法,其特征在于,将所述第二音频和所述第一输出结果输入至所述第二模型进行处理以获得第二输出结果包括:将所述第二音频输入至所述数字信号处理模型进行处理,以获得中间输出结果;以及
将所述中间输出结果和所述第一输出结果输入至所述简化的神经网络模型进行处理以获得所述第二输出结果。9.根据权利要求1所述的方法,其特征在于,M=K
×
N,K为大于1的整数。10.根据权利要求9所述的方法,其特征在于,在基于所述音频训练数据训练所述第一模型和所述第二模型的过程中,从所述输入音频获取所述第一音频之后的连续K个帧长为N的第二音频,将所述K个第二音频依次地与所述第一输出结果一起输入至所述第二模型进行处理以获得K个第二输出结果,并且基于所述K个第二输出结果与所述输出音频更新所述第一模型和所述第二模型的参数以获得所述训练后的第一模型和所述训练后的第二模型。11.根据权利要求1所述的方法,其特征在于,基于所述音频训练数据训练所述第一模型和所述第二模型的步骤多次迭代执行,其中,在所述迭代执行过程中,将前一次训练中产生的所述训练后的第一模型和所述训练后的第二模型的参数的更新值分别赋值给后一次训练中训练前的第一模型和训练前的第二模型使用。12.一种用于生成语音增强模型的设备,其特征在于,包括:处理器;和存储装置,用于存储能够在所述处理器上运行的计算机程序;其中,当所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1
‑
11中任一项所述的用...
【专利技术属性】
技术研发人员:陆丛希,李林锴,周昊帅,袁宇帆,孙鸿程,
申请(专利权)人:上海又为智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。