一种基于混合特征提取进行数据增强的语音识别方法技术

技术编号:37520097 阅读:14 留言:0更新日期:2023-05-12 15:42
本发明专利技术公开了一种基于混合特征提取进行数据增强的语音识别方法,所述方法包括:在音频数据集中,获取任意两语音特征序列的加权组合作为语音识别模型的输入,基于识别结果与两目标文本序列间的加权组合损失,更新语音识别模型参数,获得训练后的语音识别模型;两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。本发明专利技术中,将两个语音序列加权求和后形成混合特征,将该混合特征作为AS R模型的输入,使用每个标签来计算识别损失,并使用与语音序列相同的权重组合来计算该混合特征的混合损失,从而训练AS R模型,提升语音识别的鲁棒性和准确率。别的鲁棒性和准确率。别的鲁棒性和准确率。

【技术实现步骤摘要】
一种基于混合特征提取进行数据增强的语音识别方法


[0001]本专利技术属于语音识别
,具体来说涉及一种基于混合特征提取进行数据增强的语音识别方法。

技术介绍

[0002]自动语音识别(ASR),是一种将人的语音转换为文本的技术。随着深度学习的发展。先进的模型如DNN、CNN、RNN和端到端模型,相比传统的混合模型,识别精度更高、效果更好。但是,基于深度学习的模型需要大量的标记训练数据以对抗过度拟合并确保高准确性,特别是对于训练数据很少的语音识别任务。
[0003]因此,提出了很多用于ASR的数据增强方法,主要是增强语音数据。例如,速度扰动、音高调整、添加噪声和声道长度扰动,通过调整音频的速度或音高,或通过在原始干净音频上添加噪声音频,或通过转换频谱图来增加语音数据的数量。而上述的数据增强方法都专注于增强语音输入而不改变相应的标签(文本),这就需要对增强策略进行仔细调整,否则识别的准确率会大大降低。

技术实现思路

[0004]本专利技术的目的之一在于提供一种基于混合特征提取进行数据增强的语音识别方法,以解决
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供技术方案如下:
[0006]一种基于混合特征提取进行数据增强的语音识别方法,所述方法包括:
[0007]在音频数据集中,获取任意两语音特征序列的加权组合作为语音识别模型的输入,基于识别结果与两目标文本序列间的加权组合损失,更新语音识别模型参数,获得训练后的语音识别模型;
[0008]两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。
[0009]优选地,所述方法包括以下步骤:
[0010]步骤1,获取音频数据,构建音频数据集,对音频数据标记文本并进行文本数据归一化;
[0011]步骤2,对音频数据集中的任一语音序列提取特征序列,并进行均值方差归一化;
[0012]步骤3,使用训练后的GMM对齐模型对各特征序列进行强制对齐,得到对应的目标文本序列;
[0013]步骤4,选择任意两语音序列的特征序列进行加权求和,得到混合特征序列;该权重组合之和为1;
[0014]步骤5,将混合特征序列作为TDNN模型的输入,得到预测文本序列;
[0015]步骤6基于步骤4中的权重组合,计算预测文本序列与目标文本序列间的加权损失值,更新TDNN模型参数。
[0016]优选地,所述特征序列为梅尔频率倒谱系数特征序列或者梅尔频谱特征序列。
[0017]优选地,所述GMM对齐模型的训练包括以下步骤:
[0018]步骤3.1,基于音频数据集中的任一语音序列对应的特征序列,对单音子模型进行训练;
[0019]步骤3.2,依次使用训练后的单音子模型、训练后的三音子模型进行对齐;
[0020]步骤3.3,在一定窗长内,将语音序列中前后相似发声的帧在特征维度拼成一帧特征,使用线性判别分析对拼接后的结果进行降维;
[0021]步骤3.4,对经过降维的特征进行特征最大线性似然回归变换,将声学特征转换为说话人适应特征后,更新高斯混合模型参数;
[0022]步骤3.5,重复步骤3.2

3.4直至到达预设的训练次数。
[0023]优选地,所述步骤4中,混合特征序列X

k
=βX
i
+(1

β)X
j
,X
i
、X
j
表示第i、j个语音序列的特征序列,β表示权重。
[0024]优选地,所述权重其中,c1为超参数,代表偏置值,c2为常系数,δ为根据音频数据集得到的自适应变量,σ
i
和σ
j
分别为X
i
和X
j
的方差,λ为变系数。
[0025]优选地,所述步骤6中,加权损失值L
k
=βL
i
+(1

β)L
j
,其中,L
i
表示第i个特征序列的预测文本序列与目标文本序列间的损失值,L
j
表示第j个特征序列的预测文本序列与目标文本序列间的损失值。
[0026]优选地,所述音频数据集的获取包括:对语音数据进行数据增强,得到数据增强后的音频数据,基于数据增强后的音频数据构建音频数据集。
[0027]与现有技术相比,本专利技术的有益效果为:
[0028]本专利技术中,将两个语音序列加权求和后形成混合特征,将该混合特征作为ASR模型的输入,使用每个标签来计算识别损失,并使用与语音序列相同的权重组合来计算该混合特征的混合损失,从而训练ASR模型,提升语音识别的鲁棒性和准确率。
附图说明
[0029]图1为本专利技术的流程图。
[0030]图2为本专利技术实施例的具体流程图。
具体实施方式
[0031]下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0032]参照图1所示,本专利技术公开了一种基于混合特征提取进行数据增强的语音识别方法,所述方法包括:在音频数据集中,获取任意两语音特征序列X
i
、X
j
的加权组合X
k
=βX
i
+(1

β)X
j
作为语音识别模型的输入,基于语音识别结果Y

k
与两目标文本序列Y
i
、Y
j
间的加权组合损失L
k
,更新语音识别模型参数,获得训练后的语音识别模型;其中,所述两目标文本序列Y
i
、Y
j
分别与两语音特征序列X
i
、X
j
相对应,两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。
[0033]图2给出了本专利技术实施例的基于混合特征提取进行数据增强的语音识别方法流程图。参照图2,该基于混合特征提取进行数据增强的语音识别方法包括以下6个步骤。
[0034]步骤1,获取音频数据,构建音频数据集,该音频数据集包括若干语音序列,对音频数据标记文本,将文本数据进行预处理,也即归一化处理,如将将阿拉伯数字统一转换成中文数字、单位等符号转换成中文表述等。
[0035]步骤2,对音频数据集中的各语音序列分别提取特征序列,并进行均值方差归一化;具体包括以下2个子步骤。
[0036]步骤2.1,对音频数据集中任一音频数据基于速度扰动的方法,将音频的速率分别调整为原先的0.9倍和1.1倍,得到总的音频数据量记为T,对任一音频数据分帧,得到对应的语音序列W
i
=(w...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征提取进行数据增强的语音识别方法,其特征在于,所述方法包括:在音频数据集中,获取任意两语音特征序列的加权组合作为语音识别模型的输入,基于识别结果与两目标文本序列间的加权组合损失,更新语音识别模型参数,获得训练后的语音识别模型;两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。2.如权利要求1所述的一种基于混合特征提取进行数据增强的语音识别方法,其特征在于,所述方法包括以下步骤:步骤1,获取音频数据,构建音频数据集,对音频数据标记文本并进行文本数据归一化;步骤2,对音频数据集中的任一语音序列提取特征序列,并进行均值方差归一化;步骤3,使用训练后的GMM对齐模型对各特征序列进行强制对齐,得到对应的目标文本序列;步骤4,选择任意两语音序列的特征序列进行加权求和,得到混合特征序列;该权重组合之和为1;步骤5,将混合特征序列作为TDNN模型的输入,得到预测文本序列;步骤6基于步骤4中的权重组合,计算预测文本序列与目标文本序列间的加权损失值,更新TDNN模型参数。3.如权利要求2所述的一种基于混合特征提取进行数据增强的语音识别方法,其特征在于,所述特征序列为梅尔频率倒谱系数特征序列或者梅尔频谱特征序列。4.如权利要求2所述的一种基于混合特征提取进行数据增强的语音识别方法,其特征在于,所述GMM对齐模型的训练包括以下步骤:步骤3.1基于音频数据集中的任一语音序列对应的特征序列,对单音子模型进行训练;步骤3.2,依次使用训练后的单音子模型、训练后的三音子模型进行对齐;步骤3.3,在一定窗长内,将语音序列中前后相似发声的帧在特征维度拼成一帧特征,使用线性判别分析对拼接后的结果进行降维;步骤3.4,对经过降维的特征进行特征最大线性似然回归变换,将声学特征转换为...

【专利技术属性】
技术研发人员:王晶李国定
申请(专利权)人:一贯智服杭州技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1