当前位置: 首页 > 专利查询>之江实验室专利>正文

一种语音识别模型的训练方法技术

技术编号:39498522 阅读:18 留言:0更新日期:2023-11-24 11:28
本说明书公开了一种语音识别模型的训练方法

【技术实现步骤摘要】
一种语音识别模型的训练方法、装置、设备及存储介质


[0001]本说明书涉及计算机
,尤其涉及一种语音识别模型的训练方法

装置

设备及存储介质


技术介绍

[0002]目前,随着互联网的快速发展和人们对自身隐私的愈发关注,语音识别技术在人们生活中得到了愈发广泛的应用

较为常见的语音识别方法是通过语音识别模型实现的

具体的,可获取语音数据,并将语音数据输入预先训练完成的语音识别模型中,得到语音识别模型输出的识别结果,最后根据得到的识别结果来执行后续业务

[0003]但目前在训练语音识别模型时,使用的训练样本需要人工标注,而人工标注成本高

效率低的特点,使得目前的语音识别技术的效率较低

[0004]基于此,本说明书提供一种语音识别模型的训练方法


技术实现思路

[0005]本说明书提供一种语音识别模型的训练方法

装置
r/>设备及存储介质本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种语音识别模型的训练方法,其特征在于,所述方法包括:获取目标领域对应的目标语音数据;将所述目标语音数据输入预先训练的复述模型的编码器,得到所述编码器输出的第一语音特征,所述复述模型包含编码器和解码器,所述复述模型预先通过通用语音数据集训练得到;对所述目标语音数据进行数据增强,得到增强语音数据,并将所述增强语音数据作为第一训练样本;将所述目标语音数据输入待训练的语音识别模型中的特征提取层,得到第二语音特征,并将所述第二语音特征输入所述待训练的语音识别模型的识别层,得到所述目标语音数据的识别结果,作为所述第一训练样本的标注;将所述第一训练样本输入所述待训练的语音识别模型中,得到所述第一训练样本的识别结果;根据所述第一训练样本的识别结果及其标注之间的差异,以及所述第一语音特征和所述第二语音特征之间的差异,确定损失,并以所述损失最小为优化目标,对所述语音识别模型进行训练;其中,训练完成的所述语音识别模型用于识别目标领域中的语音数据
。2.
如权利要求1所述的方法,其特征在于,根据所述第一训练样本的识别结果及其标注之间的差异,以及所述第一语音特征和所述第二语音特征之间的差异,确定损失,具体包括:获取带标注的通用语音数据,作为第二训练样本;将所述第二训练样本输入所述待训练的语音识别模型中,得到所述第二训练样本的识别结果;根据所述第一训练样本的识别结果及其标注之间的差异

所述第一语音特征和所述第二语音特征之间的差异,以及所述第二训练样本的识别结果及其标注之间的差异,确定损失
。3.
如权利要求1所述的方法,其特征在于,所述语音识别模型包含特征提取层

识别层

分类层;根据所述第一训练样本的识别结果及其标注之间的差异,以及所述第一语音特征和所述第二语音特征之间的差异,确定损失,具体包括:将所述第二语音特征输入所述语音识别模型的分类层中,得到所述目标语音数据的分类结果,作为所述第一训练样本的时序标注;将所述第一训练样本输入所述语音识别模型的特征提取层中,得到所述特征提取层输出的所述第一训练样本的第三语音特征;将所述第三语音特征输入所述语音识别模型的分类层,得到所述第一训练样本的分类结果,所述分类结果为所述第一训练样本中的各帧语音数据与其前一帧语音数据属于同一字符的概率;根据所述第一训练样本的识别结果及其标注之间的差异

所述第一语音特征和所述第二语音特征之间的差异,以及所述第一训练样本的分类结果及其时序标注之间的差异,确定损失
。4.
如权利要求1所述的方法,其特征在于,所述复述模型通过下述方式训练得到:
根据获取到的通用语音数据集,确定各第三训练样本;针对每个第三训练样本,将该第三训练样本输入所述复述模型的编码层,得到所述复述模型的编码层输出的样本特征;将所述样本特征中的至少部分特征进行掩码处理,并将掩码处理后的所述样本特征输入所述复述模型的解码层,得到所述解码层输出的语音数据;根据所述第三训练样本及其对应的语音数据,对所述复述模型进行训练
。5.
如权利要求4所述的方法,其特征在于,所述方法还包括;获取若干目标语音数据,并根据获取到的各目标语音数据,对训练完成的复述模型的模型参数进行微调,得到用于训练所述语音识别模型的复述模型
。6.
如权利要求1所述的方法,其特征在于,所述特征提取层包含语音特征提取层和文本特征提取层;根据所述第一训练样本的识别结果及其标注之间的差异,以及所述第一语音特征和所述第二语音特征之间的差异,确定损失,具体包括:获取带标注的通用语音数据,作为第四训练样本;将所述第四训练样本的标注输入预先训练的重述模型的编码器,得到所述重述模型的编码器输出的第一文本特征,所述重述模型包括编码器和解码器,所述重述模型预先通过通用文本数据集训练得到;将所述第四训练样本的标注输入所述语音识别模型的文本特征提取层,得到所述第四训练样本的标注对应的第二文本特征;将所述第二文本特征输入所述语音识别模型的识别层,得到所述第四训练样本的识别结果;根据所述第一训练样本的识别结果及其标注之间的差异

所述第一语音特征和所述第二语音特征之间的差异

所述第四训练样本的识别结果及其标注之间的差异,以及所述第一文本特征和所述第二文本特征之间的差异,确定损失
。7.
如权利要求6所述的方法,其特征在于,采用下述方式训练得到所述重述模型:根据获取到的通用文本数据集,确定各第五训练样本;针对每个第五训练样本,将该第五训练样本输入所述重述模型的编码层,得到所述第五训练样本的样本特征;将所述样本特征中的至少部分进行掩码处理,并将掩码处理后的所述样本特征输入所述重述模型的解码层,得到所述第五训练样本文本数据;根据所述第五训练样本及其对应的文本数据,对所述重述模型进行训练
。8.
如权利要求7所述的方法,其特征在于,所述方法还包括:...

【专利技术属性】
技术研发人员:赵颖郏维强张梦璘韩松岭
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1