模型生成方法、语音识别方法、装置、介质及设备制造方法及图纸

技术编号:37507037 阅读:34 留言:0更新日期:2023-05-07 09:44
本公开涉及一种模型生成方法、语音识别方法、装置、介质及设备。方法包括:获取目标域内的多个第一有标签音频样本和多个无标签音频样本;利用多个无标签音频样本对第一初始模型进行自监督模型预训练,得到预训练模型;利用多个第一有标签音频样本和预训练模型,生成每一无标签音频样本的第一伪标签;利用各第一伪标签和多个无标签音频样本,对预训练模型进行有监督微调训练,得到目标语音识别模型。这样,可利用伪标签弥补目标域中有标签音频样本不足导致的模型准确率不高的问题,提升语音识别模型准确率。另外,还可避免通用领域训练数据对模型在目标领域内的语音识别能力造成干扰,保证模型在目标领域内的语音识别能力。保证模型在目标领域内的语音识别能力。保证模型在目标领域内的语音识别能力。

【技术实现步骤摘要】
模型生成方法、语音识别方法、装置、介质及设备


[0001]本公开涉及语音识别
,具体地,涉及一种模型生成方法、语音识别方法、装置、介质及设备。

技术介绍

[0002]语音识别模型的语音识别效果与其训练所用的数据密切相关,其中,语音识别模型通常对其所应用的目标领域内的有标签数据的规模有一定的要求。当目标领域内的有标签数据不足时,通常有两种处理方式:(1)先基于目标领域内的大量无标签数据做自监督预训练,然后用目标领域内的有标签数据做有监督微调,其中,通常目标领域内有标签数据较少,这样,语音识别模型的准确率将无法保证;(2)利用通用领域内的现有的有标签数据进行模型预训练,然后用目标领域内的有标签数据做有监督微调,但通用领域的有标签数据有可能与最终应用的目标领域不匹配,可能会对语音识别模型在目标领域内的语音识别能力造成干扰,使得语音识别模型在目标领域内的语音识别能力受到影响。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型生成方法,其特征在于,包括:获取目标域内的多个第一有标签音频样本和多个无标签音频样本;利用所述多个无标签音频样本对第一初始模型进行自监督模型预训练,得到预训练模型;利用所述多个第一有标签音频样本和所述预训练模型,生成每一所述无标签音频样本的第一伪标签;利用每一所述第一伪标签和所述多个无标签音频样本,对所述预训练模型进行有监督微调训练,得到目标语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述利用所述多个第一有标签音频样本和所述预训练模型,生成每一所述无标签音频样本的第一伪标签,包括:利用所述多个第一有标签音频样本对所述预训练模型进行有监督微调训练,得到第一语音识别模型;针对每一所述无标签音频样本,通过所述第一语音识别模型对该无标签音频样本进行语音识别,得到该无标签音频样本的第一伪标签。3.根据权利要求2所述的方法,其特征在于,在所述利用每一所述第一伪标签和所述多个无标签音频样本,对所述预训练模型进行有监督微调训练的步骤之前,所述方法还包括:获取源域内的多个第二有标签音频样本;利用所述多个第二有标签音频样本对N个第二初始模型分别进行有监督模型预训练,得到N个第二语音识别模型,其中,N≥1;针对所述N个第二语音识别模型中的每一所述第二语音识别模型,通过该第二语音识别模型对每一所述无标签音频样本分别进行语音识别,得到该第二语音识别模型对应的、所述无标签音频样本的多个第二伪标签;所述利用每一所述第一伪标签和所述多个无标签音频样本,对所述预训练模型进行有监督微调训练,得到目标语音识别模型,包括:利用所述每一第一伪标签、每一所述第二语音识别模型对应的所述多个第二伪标签以及所述多个无标签音频样本,对所述预训练模型进行有监督微调训练,得到目标语音识别模型。4.根据权利要求3所述的方法,其特征在于,所述利用所述每一第一伪标签、每一所述第二语音识别模型对应的所述多个第二伪标签以及所述多个无标签音频样本,对所述预训练模型进行有监督微调训练,得到目标语音识别模型,包括:从所述每一第一伪标签和每一所述第二语音识别模型对应的所述多个第二伪标签中筛选出多个目标伪标签;利用所述多个目标伪标签和每一所述目标伪标签对应的所述无标签音频样本,对所述预训练模型进行有监督微调训练,得到目标语音识别模型。5.根据权利要求4所述的方法,其特征在于,N=1;所述从所述每一第一伪标签和每一所述第二语音识别模型对应的所述多个第二伪标签中筛选出多个目标伪标签,包括:针对每一所述无标签音频样本,计算该无标签音频样本的所述第一伪标签和所述第二伪标签的第一相似度;
若所述第一相似度大于第一预设相似度阈值,则从该无标签音频样本的所述第一伪标签和所述第二伪标签中确定目标伪标签。6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:陈智鹏何怡马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1