音频编码器训练方法、语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：46051946 阅读：7 留言：0更新日期：2025-08-11 15:39

本公开提供了一种音频编码器训练方法、语音识别方法、装置、电子设备及存储介质，涉及智能座舱技术领域中的AI或人工智能技术。该方法包括：将训练数据分别输入第一训练模型和第二训练模型；第一训练模型和第二训练模型具有关联关系；训练数据中包括：音频数据和文本数据；通过第一训练模型对训练数据进行特征提取，得到第一特征表示；通过第二训练模型对训练数据进行特征提取，得到第二特征表示；根据对应的第一特征表示和第二特征表示，确定第一损失；根据第一损失对第二训练模型进行训练；响应于第二训练模型训练收敛，基于第二训练模型构建音频编码器。本公开扩展了训练数据范围，将文本数据引入训练，能够学习到更丰富的语言特征。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及智能座舱，尤其涉及一种音频编码器训练方法、语音识别方法、装置、电子设备及存储介质。

技术介绍

1、在基于ai或人工智能的语音识别领域，大型语言模型(llm，large languagemodel)的应用正逐渐展现出巨大的潜力。然而，当前的语音识别技术仍然面临诸多挑战，尤其是在训练数据的质量和数量方面。高质量的训练数据是构建高准确性语音识别模型的关键，但现实中获取这样的数据往往受到多种限制。

2、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种音频编码器训练方法、语音识别方法、装置、电子设备及存储介质。

2、根据本公开实施例的第一方面，提供一种音频编码器训练方法，包括：将训练数据分别输入第一训练模型和第二训练模型；所述第一训练模型和第二训练模型具有关联关系；所述训练数据中包括：音频数据和文本数据；通过所述第一训练...

【技术保护点】

1.一种音频编码器训练方法，其特征在于，包括：

2.根据权利要求1所述的音频编码器训练方法，其特征在于，所述通过所述第二训练模型对所述训练数据进行特征提取，得到第二特征表示，包括：

3.根据权利要求2所述的音频编码器训练方法，其特征在于，所述第二特征表示，包括：第二音频特征表示，第二文本特征表示。

4.根据权利要求2所述的音频编码器训练方法，其特征在于，所述将所述音频特征序列和文本特征序列输入共享层，通过所述共享层进行上下文建模，确定所述第二特征表示，包括：

5.根据权利要求1所述的音频编码器训练方法，其特征在于，所述方法还包括：

<...

【技术特征摘要】

1.一种音频编码器训练方法，其特征在于，包括：

2.根据权利要求1所述的音频编码器训练方法，其特征在于，所述通过所述第二训练模型对所述训练数据进行特征提取，得到第二特征表示，包括：

3.根据权利要求2所述的音频编码器训练方法，其特征在于，所述第二特征表示，包括：第二音频特征表示，第二文本特征表示。

5.根据权利要求1所述的音频编码器训练方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的音频编码器训练方法，其特征在于，基于所述第二训练模型通过参数优化迁移，得到所述第一训练模型，包括：

7.根据权利要求1所述的音频编码器训练方法，其特征在于，将训练数据分别输入第一训练模型和第二训练模型，包括：

8.根据权利要求1或7所述的音频编码器训练方法，其特征在于，所述第一特征表示，包括：第一音频特征表示和第一文本特征表示；所述第二特征表示，包括：第二音频特...

【专利技术属性】
技术研发人员：苏航，孔玉祥，范利春，
申请(专利权)人：小米汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人