一种语音识别模型训练方法、装置及可读存储介质制造方法及图纸

技术编号:46069101 阅读:15 留言:0更新日期:2025-08-11 15:57
本申请提供一种语音识别模型训练方法、装置及可读存储介质,所述方法包括:数据准备:通过外部知识库进行多源信息融合修正以及特征提取处理,得到训练数据;模型构建,包括:改进的Whisper编码器、判别器网络、改进的Whisper解码器以及多模态编码器;模型训练:通过训练数据对构建的模型进行训练,得到训练模型;模型评估:通过多维度指标对训练模型进行评估,得到评估结果。本申请可以提高模型的鲁棒性和泛化能力,提高识别精度,提升模型的综合性能,提升模型在多模态任务中的性能。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种语音识别模型训练方法、装置及可读存储介质


技术介绍

1、语音识别技术早期主要基于统计方法,如动态时间规整、隐马尔可夫模型等。随着深度学习的发展,神经网络模型被广泛应用于语音识别,极大地提升了识别性能。深度学习模型通常需要大量的标注数据来训练,对大量标注数据的需求成为制约其进一步发展的瓶颈。数据标注过程成本高昂、耗时费力。

2、弱监督学习则提供了一种更经济高效的解决方案,它不需要每个训练样本都有精确的标签,通过利用不完全标注、不确切标注或不准确标注的数据,依然能够训练出有效的模型,从而降低了数据标注成本,同时在一定程度上缓解了数据稀缺的问题。

3、随着语音交互在全球范围内的广泛应用,如各种语音助手、多语言客服等,产生了海量的多语言、多任务的语音数据。弱监督学习语音识别模型可以充分挖掘和利用这些数据的价值,提升模型在多语言和多任务场景下的性能和适应性。在智能家居、智能安防、自动驾驶等领域,需要语音识别技术能够在复杂多变的环境和不同的用户群体中准确、稳定地工作。弱监督学习语音识别模型能够更好地满足这些实际本文档来自技高网...

【技术保护点】

1.一种语音识别模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音识别模型训练方法,其特征在于,S1,包括:

3.根据权利要求1所述的语音识别模型训练方法,其特征在于,S2中,所述判别器网络的输入为改进的Whisper编码器输出的特征向量,所述判别器网络用于判断所述特征向量的数据类别,其中,所述特征向量的数据类别包括长尾数据类别以及主流数据类别。

4.根据权利要求1所述的语音识别模型训练方法,其特征在于,S3之前,还包括:

5.根据权利要求1所述的语音识别模型训练方法,其特征在于,S3,包括以下至少一项:

6...

【技术特征摘要】

1.一种语音识别模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的语音识别模型训练方法,其特征在于,s1,包括:

3.根据权利要求1所述的语音识别模型训练方法,其特征在于,s2中,所述判别器网络的输入为改进的whisper编码器输出的特征向量,所述判别器网络用于判断所述特征向量的数据类别,其中,所述特征向量的数据类别包括长尾数据类别以及主流数据类别。

4.根据权利要求1所述的语音识别模型训练方法,其特征在于,s3之前,还包括:

5.根据权利要求1所述的语音识别模型训练方法,其特征在于,s3,包括以下至少一项:

6.根据...

【专利技术属性】
技术研发人员:秦冠一
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1