一种基于学习自动机和时频掩膜进行语音降噪的方法技术

技术编号:38416065 阅读:11 留言:0更新日期:2023-08-07 11:19
本发明专利技术公开了一种基于学习自动机和时频掩膜进行语音降噪的方法,应用于语音降噪技术领域。包括以下步骤:训练语音质量判别器D;将语音质量判别器D和连续行为集学习自动机结合为强化学习模型;对含噪语音进行预处理和特征提取;对含噪语音进行语音降噪,更新强化学习模型;对降噪后的语音进行逆时频转换;对逆时频转换后的语音进行后处理,得到降噪语音。本发明专利技术采用连续动作集学习自动机作为核心算法,计算复杂度低,有利于在低功耗、低计算资源的设备上实现;在非平稳噪声环境下具有自动适应的能力,对训练数据以外的噪声类型和场景具有较好的适应性和鲁棒性;可以更加精确地调整降噪策略,提高降噪效果。提高降噪效果。提高降噪效果。

【技术实现步骤摘要】
一种基于学习自动机和时频掩膜进行语音降噪的方法


[0001]本专利技术涉及语音去噪
,更具体的说是涉及一种基于学习自动机和时频掩膜进行语音降噪的方法。

技术介绍

[0002]现有的语音降噪方案基于深度学习实现,通常采用卷积神经网络(CNN)或长短时记忆网络(LSTM)等模型来进行时频掩膜的预测。这类方法的主要步骤为:对输入的含噪语音信号进行预处理,如分帧、窗函数加权等;从预处理后的信号中提取特征,如梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等;将提取的特征输入到深度学习模型(如CNN或LSTM)中,预测时频掩膜;将预测得到的时频掩膜应用于含噪语音信号的功率谱,得到降噪后的语音信号。虽然现有的降噪方案能够实现语音降噪,但是,还存在以下缺点:计算复杂度高:深度学习模型(如CNN或LSTM)通常具有较多的参数和层数,导致计算复杂度较高,不利于在低功耗、低计算资源的设备上实现;训练时间长:由于模型参数众多,训练过程需要大量计算资源和时间,对于实时性要求较高的场景不太适用;鲁棒性差:深度学习模型对于训练数据以外的噪声类型和场景适应性较差,可能导致降噪性能不佳;对非平稳噪声适应性差:现有技术方案在处理非平稳噪声时,模型的泛化能力和自适应性较差。因此,如何提供一种计算复杂度低、自适应性较强的语音降噪方法是本领域技术人员亟需解决的问题。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种基于学习自动机和时频掩膜进行语音降噪的方法,利用连续动作集学习自动机预测时频掩膜系数,并结合卷积神经网络训练的评估器对连续动作集学习自动机的动作进行强化学习,实现低计算复杂度、高效、自适应的语音降噪。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种基于学习自动机和时频掩膜进行语音降噪的方法,包括以下步骤:
[0006]S1、通过纯净语音和含噪语音训练语音质量判别器D;
[0007]S2、将语音质量判别器D和连续行为集学习自动机结合为强化学习模型;
[0008]S3、对需要降噪的含噪语音进行预处理和特征提取;
[0009]S4、强化学习模型对含噪语音进行语音降噪,更新强化学习模型;
[0010]S5、对降噪后的语音进行逆时频转换;
[0011]S6、对逆时频转换后的语音进行后处理,得到降噪语音。
[0012]可选的,语音质量判别器D包括:卷积层、池化层、归一化层、全连接层;其中,卷积层为两个1D卷积层,卷积核的大小为3,步长为1,激活函数使用ReLU;池化层使用最大池化层,池化窗口大小为2;归一化层使用批量归一化;全连接层的输出神经元数量为1,激活函数使用sigmoid,将预测结果映射到0

1范围内,表示语音清晰度和可辨识度的得分。
[0013]可选的,语音质量判别器D的损失函数为:
[0014][0015]式中,L为损失函数值,n为训练样本的数量,y_pred为语音质量预测得分值,y_true为语音质量实际得分值。
[0016]可选的,S3中的预处理具体为:将连续的语音信号进行分帧,对每一帧语音信号进行加窗处理,使用短时傅里叶变换方法,将每一帧语音信号从时域转换到频域,得到语音信号的频谱表示。
[0017]可选的,S4具体为:强化学习模型中包括多个连续行为集学习自动机,输入S3中需要降噪含噪语音后,多个连续行为集学习自动机进行计算得出一个时频掩膜矩阵,基于时频掩膜矩阵对语音信号进行降噪,将降噪后的语音送入语音质量判别器D得到一个降噪反馈得分,根据降噪反馈得分更新连续行为集学习自动机的状态。
[0018]可选的,连续行为集学习自动机的更新包括均值更新和方差更新,均值更新公式为:
[0019]μ(t+1)=μ(t)+λ*R(t)*(a(t)

μ(t))
[0020]式中,μ(t+1)为更新后的均值,μ(t)为时间步t时的均值,λ为时间步t时的学习率,R(t)为时间步t时收到的反馈信号,a(t)为在时间步t时选择的行为输出;
[0021]方差更新公式为:
[0022]σ2(t+1)=σ2(t)+β*R(t)*((a(t)

μ(t))2‑
σ2(t))
[0023]式中,σ2(t+1)为更新后的方差,σ2(t)为时间步t时的方差,β为时间步t时的方差更新系数。
[0024]可选的,S5中的逆时频转换使用逆短时傅里叶变换方法,将降噪后的语音的频谱表示从频域转换回时域。
[0025]可选的,S6中的后处理包括去除预加重、重叠加窗合成操作,提高语音信号的质量。
[0026]经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种基于学习自动机和时频掩膜进行语音降噪的方法,具有以下有益效果:
[0027]1.计算复杂度低:本专利技术采用连续动作集学习自动机(CALA)作为核心算法,其计算复杂度相较于深度学习模型(如CNN或LSTM)较低,有利于在低功耗、低计算资源的设备上实现;
[0028]2.自适应性强:CALA在非平稳噪声环境下具有自动适应的能力,使得本专利技术技术方案对训练数据以外的噪声类型和场景具有较好的适应性和鲁棒性;
[0029]3.结合评估器的自适应调整:本专利技术技术方案利用卷积神经网络(CNN)训练一个评估器,对降噪后的语音信号质量进行打分,并将得分作为反馈信号来修正学习自动机(LA)的策略,这使得本专利技术技术方案在实际应用中可以更加精确地调整降噪策略,提高降噪效果。
附图说明
[0030]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0031]图1为本专利技术的语音降噪方法流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]本专利技术实施例公开了一种基于学习自动机和时频掩膜进行语音降噪的方法,如图1所示,包括以下步骤:
[0034]S1、通过纯净语音和含噪语音训练语音质量判别器D;
[0035]S2、将语音质量判别器D和连续行为集学习自动机结合为强化学习模型;
[0036]S3、对需要降噪的含噪语音进行预处理和特征提取;
[0037]S4、强化学习模型对含噪语音进行语音降噪,更新强化学习模型;
[0038]S5、对降噪后的语音进行逆时频转换;
[0039]S6、对逆时频转换后的语音进行后处理,得到降噪语音。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于学习自动机和时频掩膜进行语音降噪的方法,其特征在于,包括以下步骤:S1、通过纯净语音和含噪语音训练语音质量判别器D;S2、将语音质量判别器D和连续行为集学习自动机结合为强化学习模型;S3、对需要降噪的含噪语音进行预处理和特征提取;S4、强化学习模型对含噪语音进行语音降噪,更新强化学习模型;S5、对降噪后的语音进行逆时频转换;S6、对逆时频转换后的语音进行后处理,得到降噪语音。2.根据权利要求1所述的一种基于学习自动机和时频掩膜进行语音降噪的方法,其特征在于,语音质量判别器D包括:卷积层、池化层、归一化层、全连接层;其中,卷积层为两个1D卷积层,卷积核的大小为3,步长为1,激活函数使用ReLU;池化层使用最大池化层,池化窗口大小为2;归一化层使用批量归一化;全连接层的输出神经元数量为1,激活函数使用sigmoid,将预测结果映射到0

1范围内,表示语音清晰度和可辨识度的得分。3.根据权利要求1所述的一种基于学习自动机和时频掩膜进行语音降噪的方法,其特征在于,语音质量判别器D的损失函数为:式中,L为损失函数值,n为训练样本的数量,y_pred为语音质量预测得分值,y_true为语音质量实际得分值。4.根据权利要求1所述的一种基于学习自动机和时频掩膜进行语音降噪的方法,其特征在于,S3中的预处理具体为:将连续的语音信号进行分帧,对每一帧语音信号进行加窗处理,使用短时傅里叶变换方法,将每一帧语音信号从时域转换到频域,得到语音信号的频谱表示。5.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:葛昊邹超
申请(专利权)人:上海数迹智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1