一种基于混合特征提取进行数据增强的语音识别方法技术

技术编号：37520097 阅读：14 留言：0更新日期：2023-05-12 15:42

本发明专利技术公开了一种基于混合特征提取进行数据增强的语音识别方法，所述方法包括：在音频数据集中，获取任意两语音特征序列的加权组合作为语音识别模型的输入，基于识别结果与两目标文本序列间的加权组合损失，更新语音识别模型参数，获得训练后的语音识别模型；两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。本发明专利技术中，将两个语音序列加权求和后形成混合特征，将该混合特征作为AS R模型的输入，使用每个标签来计算识别损失，并使用与语音序列相同的权重组合来计算该混合特征的混合损失，从而训练AS R模型，提升语音识别的鲁棒性和准确率。别的鲁棒性和准确率。别的鲁棒性和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合特征提取进行数据增强的语音识别方法

[0001]本专利技术属于语音识别
，具体来说涉及一种基于混合特征提取进行数据增强的语音识别方法。

技术介绍

[0002]自动语音识别(ASR)，是一种将人的语音转换为文本的技术。随着深度学习的发展。先进的模型如DNN、CNN、RNN和端到端模型，相比传统的混合模型，识别精度更高、效果更好。但是，基于深度学习的模型需要大量的标记训练数据以对抗过度拟合并确保高准确性，特别是对于训练数据很少的语音识别任务。
[0003]因此，提出了很多用于ASR的数据增强方法，主要是增强语音数据。例如，速度扰动、音高调整、添加噪声和声道长度扰动，通过调整音频的速度或音高，或通过在原始干净音频上添加噪声音频，或通过转换频谱图来增加语音数据的数量。而上述的数据增强方法都专注于增强语音输入而不改变相应的标签(文本)，这就需要对增强策略进行仔细调整，否则识别的准确率会大大降低。

技术实现思路

[0004]本专利技术的目的之一在于提供一种基于混合特征提取进行数据增强的语音识别方法，以解决
技术介绍
中提出的问题。
[0005]为实现上述目的，本专利技术提供技术方案如下：
[0006]一种基于混合特征提取进行数据增强的语音识别方法，所述方法包括：
[0007]在音频数据集中，获取任意两语音特征序列的加权组合作为语音识别模型的输入，基于识别结果与两目标文本序列间的加权组合损失，更新语音识别模型参数，获得训练后的语音识别模型；
[0008]两语音特

【技术保护点】

【技术特征摘要】
1.一种基于混合特征提取进行数据增强的语音识别方法，其特征在于，所述方法包括：在音频数据集中，获取任意两语音特征序列的加权组合作为语音识别模型的输入，基于识别结果与两目标文本序列间的加权组合损失，更新语音识别模型参数，获得训练后的语音识别模型；两语音特征序列的权重组合与两目标文本序列的损失权重组合一致。2.如权利要求1所述的一种基于混合特征提取进行数据增强的语音识别方法，其特征在于，所述方法包括以下步骤：步骤1，获取音频数据，构建音频数据集，对音频数据标记文本并进行文本数据归一化；步骤2，对音频数据集中的任一语音序列提取特征序列，并进行均值方差归一化；步骤3，使用训练后的GMM对齐模型对各特征序列进行强制对齐，得到对应的目标文本序列；步骤4，选择任意两语音序列的特征序列进行加权求和，得到混合特征序列；该权重组合之和为1；步骤5，将混合特征序列作为TDNN模型的输入，得到预测文本序列；步骤6基于步骤4中的权重组合，计算预测文本序列与目标文本序列间的加权损失值，更新TDNN模型参数。3.如权利要求2所述的一种基于混合特征提取进行数据增强的语音识别方法，其特征在于，所述特征序列为梅尔频率倒谱系数特征序列或者梅尔频谱特征序列。4.如权利要求2所述的一种基于混合特征提取进行数据增强的语音识别方法，其特征在于，所述GMM对齐模型的训练包括以下步骤：步骤3.1基于音频数据集中的任一语音序列对应的特征序列，对单音子模型进行训练；步骤3.2，依次使用训练后的单音子模型、训练后的三音子模型进行对齐；步骤3.3，在一定窗长内，将语音序列中前后相似发声的帧在特征维度拼成一帧特征，使用线性判别分析对拼接后的结果进行降维；步骤3.4，对经过降维的特征进行特征最大线性似然回归变换，将声学特征转换为...

【专利技术属性】
技术研发人员：王晶，李国定，
申请(专利权)人：一贯智服杭州技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人