一种语音降噪模型训练方法及装置制造方法及图纸

技术编号:38523787 阅读:30 留言:0更新日期:2023-08-19 17:01
本发明专利技术公开了一种语音降噪模型训练方法及装置,获取待训练语音样本并将训练样本和RNNt

【技术实现步骤摘要】
一种语音降噪模型训练方法及装置


[0001]本专利技术涉及语音处理
,尤其涉及一种语音降噪模型训练方法及装置。

技术介绍

[0002]为了能够高效利用GPU训练语音降噪模型,语音数据首先会通过切片的方式重构为格式统一的独立样本,再将独立样本随机抽样形成训练样本,作为模型训练中的输入,与此同时,MSE通常作为损失函数用于评估模型当前输出与期望输出的误差,并基于此误差进行语音降噪模型中的权重更新。
[0003]但是在现有模型训练方案中,一方面,独立样本和训练样本通常都是各自等大的,同时受限于GPU显存的大小,独立样本的时长极其有限,通常情况下的独立样本的时长设置在10s、15s或20s,这会导致模型中的RNN单元在处理实际应用场景中涉及语音时长远超20s的数据时容易出现过拟合,引起降噪效果异常;另一方面,MSE作为损失函数对于模型输出误差的评估是等权重的,这与人耳的主观感知并不吻合,具体表现为人耳对于不同音量下的语音劣化敏感程度不同,而MSE对于不同音量下的误差反馈是相同的,此外,人耳对于突发噪声的感知是敏感的,而MSE则由于突发噪声本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音降噪模型训练方法,其特征在于,包括:获取待训练语音样本并将训练样本和RNNt

1隐藏状态值输入语音模型中,其中,训练样本中包括多个独立样本;对所述训练样本和RNNt

1隐藏状态值进行前向传播得到实际语音结果与更新后的RNNt

1隐藏状态值;利用概率p对所述更新后的RNNt

1隐藏状态值进行清零重置得到重置后的RNNt

1隐藏状态值;利用经过权重掩码的MSN对所述实际语音结果和期望结果的误差结果进行计算得到加权误差结果,以使语音模型根据所述加权误差结果进行反向传播并更新语音模型权重得到输出更新后的新语音模型权重后,根据所述更新后的新语音模型权重和所述重置后的RNNt

1隐藏状态值及所述训练样本进行前向传播直到语音模型收敛得到目标语音模型。2.如权利要求1所述的语音降噪模型训练方法,其特征在于,所述RNNt

1隐藏状态值的数据大小根据GRU对应的输入数据和独立样本加窗分帧后的帧数得到;GRU对应的输入数据大小为N
×
L
×
H
in
,则对应的RNN
t
‑1隐藏状态值的大小为N
×
L
×
H
out
;其中,N为训练样本中包含的独立样本数,L为独立样本加窗分帧后的帧数,H
in
为GRU对应的输入特征维度,H
ou
t为GRU对应的输出特征维度。3.如权利要求1所述的语音降噪模型训练方法,其特征在于,所述利用经过权重掩码的MSN对所述实际语音结果和期望结果的误差结果进行计算得到加权误差结果,具体为:利用MSN计算出所述实际语音结果和期望结果的每一帧误差结果;对各个所述独立样本数据进行分帧加窗处理,并通过短时傅里叶变换计算出所述各个独立样本的每一帧信号的能量,并对所述每一帧信号的能量进行归一化得到归一化后的每一帧能量;根据所设置的能量阈值和权重阈值确定权重映射曲线,并将独立样本中的每一帧能量依照权重映射曲线映射得到所述每一帧能量各自对应的权重;对所述每一帧能量各自对应的权重进行归一化处理得到MSE权重掩码,其中,归一化公式为:其中,Weig表示为每一帧能量各自对应的权重;将所述MSE权重掩码与每一帧误差结果相乘得到加权误差结果。4.如权利要求3所述的语音降噪模型训练方法,其特征在于,所述对所述每一帧信号的能量进行归一化得到归一化后的每一帧能量,具体为:利用所述各个独立样本的能量最大值对所述各个独立样本的每一帧信号的能量进行归一化,归一化公式为:其中,Energy
norm
表示归一化后的每...

【专利技术属性】
技术研发人员:吴松杰康元勋
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1