语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：30794212 阅读：25 留言：0更新日期：2021-11-16 07:58

本发明专利技术提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别的语音数据；基于语音识别模型，对语音数据进行语音识别，将语音识别所得的语音语义特征转换为文本语义特征，并基于文本语义特征生成语音识别文本；其中，语音识别模型是基于预训练语音模型和预训练语言模型训练得到的，语音语义特征属于预训练语音模型的特征空间，文本语义特征属于预训练语言模型的特征空间。本发明专利技术实施例提供的方法、装置、电子设备和存储介质，实现了预训练语音模型与预训练语言模型的直接结合，充分利用无标注语音数据和文本数据分别进行语音模型和语言模型的预训练，减少了对高成本有标注数据的依赖。成本有标注数据的依赖。成本有标注数据的依赖。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质

[0001]本专利技术涉及语音信号处理
，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]通常语音识别模型从随机初始化开始训练，随着训练样本的输入，语音识别模型根据样本的预测情况寻找梯度下降方向，丰富的数据为语音识别模型提供充分的指导，多轮迭代后得到较优的模型参数。
[0003]然而，在语音识别模型需要执行低资源语种的语音识别任务时，可供训练的标注数据量很少，从随机初始化开始训练容易造成对少量数据的过拟合。因此模型预训练对于提升低资源语种的语音识别性能十分重要。
[0004]目前，通常只针对语音模型做预训练，而语言模型由于依赖语音模型的输出作为输入而难以单独预训练。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中只针对语音模型做预训练，而语言模型由于依赖语音模型的输出作为输入而难以单独预训练的缺陷。
[0006]本专利技术提供一种语音识别方法，包括：
[0007]确定待识别的语音数据；
[0008]基于语音识别模型，对所述语音数据进行语音识别，将语音识别所得的语音语义特征转换为文本语义特征，并基于所述文本语义特征生成语音识别文本；
[0009]其中，所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的，所述语音语义特征属于所述预训练语音模型的特征空间，所述文本语义特征属于所述预训练语言模型的特征空间。
[00...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：确定待识别的语音数据；基于语音识别模型，对所述语音数据进行语音识别，将语音识别所得的语音语义特征转换为文本语义特征，并基于所述文本语义特征生成语音识别文本；其中，所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的，所述语音语义特征属于所述预训练语音模型的特征空间，所述文本语义特征属于所述预训练语言模型的特征空间。2.根据权利要求1所述的语音识别方法，其特征在于，所述将语音识别所得的语音语义特征转换为文本语义特征，包括：基于所述语音识别模型中的转换模块，对所述语音语义特征进行长度转换和特征空间转换，得到所述文本语义特征，所述文本语义特征的长度是对所述语音语义特征进行文本长度预测得到的。3.根据权利要求2所述的语音识别方法，其特征在于，所述基于所述语音识别模型中的转换模块，对所述语音语义特征进行长度转换，包括：基于所述转换模块，按照采样比例对所述语音语义特征进行均匀采样，所述采样比例是基于所述语音语义特征的长度和所述文本长度预测的结果确定的。4.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述文本语义特征生成语音识别文本，包括：基于所述语音识别模型中的预训练语言模型，对所述文本语义特征进行文本预测，得到文本预测特征，基于所述文本语义特征和所述文本预测特征生成所述语音识别文本。5.根据权利要求1至4中任一项所述的语音识别方法，其特征在于，所述语音识别模型的模型损失函数是基于语音识别损失函数和长度预测损失函数确定的；所述语音识别损失函数是基于样本语音对应的样本文本，以及所述样本语音的文本语义特征确定的；所述长度预测损失函数是基于所述样本语音对应的样本文本的长度...

【专利技术属性】
技术研发人员：杜叶倩，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人