语音识别模型的训练方法、语音识别方法及装置制造方法及图纸

技术编号:26175204 阅读:19 留言:0更新日期:2020-10-31 14:07
本发明专利技术提供了一种语音识别模型的训练方法、语音识别方法及装置,涉及语音识别的技术领域,该语音识别模型的训练方法包括:获取包括多个语音序列的语音样本集,对语音样本集中的多个语音序列进行帧计算,以提取语音序列的Fbank特征向量,对Fbank特征向量进行降采样处理和掩码运算,生成掩码特征向量;将掩码特征向量输入至预训练模型,以完成语音识别模型的预训练过程。本发明专利技术提供的语音识别模型的训练方法、语音识别方法及装置,在训练过程中,由于使用的是无标注语音序列,大大减少了语音识别模型的训练过程中对标注数据的依赖,在保证识别效果的同时,也降低了使用成本。

【技术实现步骤摘要】
语音识别模型的训练方法、语音识别方法及装置
本专利技术涉及语音识别的
,尤其是涉及一种语音识别模型的训练方法、语音识别方法及装置。
技术介绍
近年来,随着深度学习技术的发展,语音识别技术也经历了革命性的变化,从深度学习技术的发展中汲取营养,也一直是语音识别技术取得突破的途径。但是,通过深度学习技术对语音识别模型进行训练时,为了得到更为准确的识别效果,通常需要大量昂贵的标注数据,这对于工业界语音识别系统提出了很大的挑战,不仅提高了使用成本,也难以进行大范围推广。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种语音识别模型的训练方法、语音识别方法及装置,以缓解上述技术问题。第一方面,本专利技术实施例提供了一种语音识别模型的训练方法,该语音识别模型为Transformer结构的模型,包括编码器和解码器,编码器包括多个编码层,解码器包括多个解码层,编码器和掩蔽预测编码MPC层构成语音识别模型的预训练模型,该方法包括:获取包括多个语音序列的语音样本集,对语音样本集中的多个语音序列进行帧计算,以提取语音序列的Fban本文档来自技高网...

【技术保护点】
1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型为Transformer结构的模型,包括编码器和解码器,所述编码器包括多个编码层,所述解码器包括多个解码层,所述编码器和掩蔽预测编码MPC层构成所述语音识别模型的预训练模型,所述方法包括:/n获取包括多个语音序列的语音样本集,对所述语音样本集中的多个所述语音序列进行帧计算,以提取所述语音序列的Fbank特征向量,其中,所述语音样本集中包括的多个语音序列为无标注语音序列;/n对所述Fbank特征向量进行指定倍数的降采样处理,生成所述Fbank特征向量对应的降采样特征向量;/n对所述降采样特征向量做掩码运算,生成掩码特征向量;/n将所述掩...

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型为Transformer结构的模型,包括编码器和解码器,所述编码器包括多个编码层,所述解码器包括多个解码层,所述编码器和掩蔽预测编码MPC层构成所述语音识别模型的预训练模型,所述方法包括:
获取包括多个语音序列的语音样本集,对所述语音样本集中的多个所述语音序列进行帧计算,以提取所述语音序列的Fbank特征向量,其中,所述语音样本集中包括的多个语音序列为无标注语音序列;
对所述Fbank特征向量进行指定倍数的降采样处理,生成所述Fbank特征向量对应的降采样特征向量;
对所述降采样特征向量做掩码运算,生成掩码特征向量;
将所述掩码特征向量输入至所述预训练模型,通过所述预训练模型的编码器和MPC层输出所述Fbank特征向量对应的预测向量;
计算所述预测向量与所述Fbank特征向量的损失函数,根据所述损失函数调整所述语音识别模型中所述编码器的参数,继续训练调整参数后的所述语音识别模型,直至所述损失函数收敛至预设值,完成所述语音识别模型的预训练过程。


2.根据权利要求1所述的方法,其特征在于,所述预训练过程完成之后,所述语音识别模型的所述编码器与解码器构成所述语音识别模型的微调模型,所述方法还包括:
将所述语音序列的Fbank特征向量输入至所述微调模型,以对所述语音识别模型的参数进行微调处理。


3.根据权利要求1所述的方法,其特征在于,所述对所述语音样本集中的多个所述语音序列进行帧计算,以提取所述语音序列的Fbank特征向量的步骤包括:
将所述无标注语音序列输入至预先设置的特征提取系统,通过所述特征提取系统对所述无标注语音序列进行帧计算,以提取所述语音序列的Fbank特征向量。


4.根据权利要求1所述的方法,其特征在于,对所述Fbank特征向量进行指定倍数的降采样处理,生成所述Fbank特征向量对应的降采样特征向量的步骤包括:
对所述Fbank特征向量依次选取指定倍数的一组帧数;
对于每组帧数,随机选取其中指定个数的帧,将每组帧数中选取的所述指定个数的帧进行组合,以生成所述Fbank特征向量对应的降采样特征向量;其中,所述指定个数小于所述指定倍数。


5.根据权利要求4所述的方法,其特征在于,所述指定倍数为8倍,所述指定个数为1。


6.根据权利要求4所述的方法,其特征在于,对所述降采样特征向量做掩码计算,生成掩码特征向量的步骤包括:
遍历所述降采样特征向量的每一帧;
按照预设的随机函数对所述降采样特征向...

【专利技术属性】
技术研发人员:蒋栋蔚
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1