语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30794212 阅读:25 留言:0更新日期:2021-11-16 07:58
本发明专利技术提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别的语音数据;基于语音识别模型,对语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于文本语义特征生成语音识别文本;其中,语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,语音语义特征属于预训练语音模型的特征空间,文本语义特征属于预训练语言模型的特征空间。本发明专利技术实施例提供的方法、装置、电子设备和存储介质,实现了预训练语音模型与预训练语言模型的直接结合,充分利用无标注语音数据和文本数据分别进行语音模型和语言模型的预训练,减少了对高成本有标注数据的依赖。成本有标注数据的依赖。成本有标注数据的依赖。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及语音信号处理
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]通常语音识别模型从随机初始化开始训练,随着训练样本的输入,语音识别模型根据样本的预测情况寻找梯度下降方向,丰富的数据为语音识别模型提供充分的指导,多轮迭代后得到较优的模型参数。
[0003]然而,在语音识别模型需要执行低资源语种的语音识别任务时,可供训练的标注数据量很少,从随机初始化开始训练容易造成对少量数据的过拟合。因此模型预训练对于提升低资源语种的语音识别性能十分重要。
[0004]目前,通常只针对语音模型做预训练,而语言模型由于依赖语音模型的输出作为输入而难以单独预训练。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中只针对语音模型做预训练,而语言模型由于依赖语音模型的输出作为输入而难以单独预训练的缺陷。
[0006]本专利技术提供一种语音识别方法,包括:
[0007]确定待识别的语音数据;
[0008]基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;
[0009]其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。
[0010]根据本专利技术提供的一种语音识别方法,所述将语音识别所得的语音语义特征转换为文本语义特征,包括:
[0011]基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换和特征空间转换,得到所述文本语义特征,所述文本语义特征的长度是对所述语音语义特征进行文本长度预测得到的。
[0012]根据本专利技术提供的一种语音识别方法,所述基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换,包括:
[0013]基于所述转换模块,按照采样比例对所述语音语义特征进行均匀采样,所述采样比例是基于所述语音语义特征的长度和所述文本长度预测的结果确定的。
[0014]根据本专利技术提供的一种语音识别方法,所述基于所述文本语义特征生成语音识别文本,包括:
[0015]基于所述语音识别模型中的预训练语言模型,对所述文本语义特征进行文本预测,得到文本预测特征,基于所述文本语义特征和所述文本预测特征生成所述语音识别文本。
[0016]根据本专利技术提供的一种语音识别方法,所述语音识别模型的模型损失函数是基于语音识别损失函数和长度预测损失函数确定的;
[0017]所述语音识别损失函数是基于样本语音对应的样本文本,以及所述样本语音的文本语义特征确定的;
[0018]所述长度预测损失函数是基于所述样本语音对应的样本文本的长度和所述文本语义特征的长度确定的。
[0019]根据本专利技术提供的一种语音识别方法,所述模型损失函数是基于所述语音识别损失函数、所述文本生成损失函数和长度预测损失函数确定的;
[0020]所述文本生成损失函数是基于所述样本语音对应的样本文本和语音识别文本确定的。
[0021]根据本专利技术提供的一种语音识别方法,所述语音识别模型是基于如下步骤训练得到的:
[0022]构建初始模型,所述初始模型包括所述预训练语音模型和预训练语言模型,以及连接所述预训练语音模型和所述预训练语言模型的初始转换模块;
[0023]基于所述语音识别损失函数和长度预测损失函数训练所述初始转换模块,得到包含训练后的初始转换模块的阶段模型;
[0024]基于所述语音识别损失函数、所述文本生成损失函数和长度预测损失函数,训练所述阶段模型。得到所述语音识别模型。
[0025]本专利技术还提供一种语音识别装置,包括:
[0026]语音数据确定单元,用于确定待识别的语音数据;
[0027]语音识别单元,用于基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;
[0028]其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。
[0030]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。
[0031]本专利技术提供的语音识别方法、装置、电子设备和存储介质,通过将语音语义特征转换为文本语义特征,解决了预训练语音模型的输出与预训练语言模型的输入不匹配的问题,实现了预训练语音模型与预训练语言模型的直接结合,充分利用无标注语音数据和文本数据分别进行语音模型和语言模型的预训练,使模型拥有较优的初始化参数,因而对于低资源语种,仅需少量有标注语音数据进行微调即可达到较好效果,减少了对高成本有标
注数据的依赖,在同等有标注数据量下提高了低资源语种语音识别能力和准确性。
附图说明
[0032]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是现有技术基于预训练语音模型的结构示意图;
[0034]图2是本专利技术实施例提供的语音识别方法的流程示意图;
[0035]图3是本专利技术实施例提供的语音识别模型的结构示意图;
[0036]图4是本专利技术实施例提供的语音识别模型数据处理流程示意图;
[0037]图5是本专利技术实施例提供的语音识别模型训练步骤的流程示意图;
[0038]图6是本专利技术提供的语音识别装置的结构示意图;
[0039]图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0040]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]目前针对低资源语种的语音识别方法,主要集中在利用无标注语音数据预训练语音模型。具体在预训练语音模型时,可以通过设计自监督训练信号来避免对标注信息的依赖,使得语音模型能够在自监督训练过程中学习特征提取,保证语音模型能够拥有较优的初始化参数。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:确定待识别的语音数据;基于语音识别模型,对所述语音数据进行语音识别,将语音识别所得的语音语义特征转换为文本语义特征,并基于所述文本语义特征生成语音识别文本;其中,所述语音识别模型是基于预训练语音模型和预训练语言模型训练得到的,所述语音语义特征属于所述预训练语音模型的特征空间,所述文本语义特征属于所述预训练语言模型的特征空间。2.根据权利要求1所述的语音识别方法,其特征在于,所述将语音识别所得的语音语义特征转换为文本语义特征,包括:基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换和特征空间转换,得到所述文本语义特征,所述文本语义特征的长度是对所述语音语义特征进行文本长度预测得到的。3.根据权利要求2所述的语音识别方法,其特征在于,所述基于所述语音识别模型中的转换模块,对所述语音语义特征进行长度转换,包括:基于所述转换模块,按照采样比例对所述语音语义特征进行均匀采样,所述采样比例是基于所述语音语义特征的长度和所述文本长度预测的结果确定的。4.根据权利要求1所述的语音识别方法,其特征在于,所述基于所述文本语义特征生成语音识别文本,包括:基于所述语音识别模型中的预训练语言模型,对所述文本语义特征进行文本预测,得到文本预测特征,基于所述文本语义特征和所述文本预测特征生成所述语音识别文本。5.根据权利要求1至4中任一项所述的语音识别方法,其特征在于,所述语音识别模型的模型损失函数是基于语音识别损失函数和长度预测损失函数确定的;所述语音识别损失函数是基于样本语音对应的样本文本,以及所述样本语音的文本语义特征确定的;所述长度预测损失函数是基于所述样本语音对应的样本文本的长度...

【专利技术属性】
技术研发人员:杜叶倩
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1