用于多语种语音识别模型构建的方法技术

技术编号：43864310 阅读：37 留言：0更新日期：2024-12-31 18:51

本发明专利技术涉及智能翻译技术领域，公开了用于多语种语音识别模型构建的方法，包括：获取语音识别训练数据，语音识别训练数据包括：音频数据、与音频数据对应的文本标签数据和与音频数据对应的语种数据；将音频数据输入预设多语种语音识别模型的编码层，预设多语种语音识别模型包括若干编码层，获取中间数据，基于中间数据得到语种识别数据，基于中间数据和语种识别数据，得到第一语种编码数据；基于语种数据得到第二语种编码数据；基于文本标签数据、第一语种编码数据和第二语种编码数据得到第一损失数据和第二损失数据；计算得到蒸馏损失数据；基于第一损失数据、第二损失数据和蒸馏损失数据，构建损失函数，进行多语种语音识别模型的构建。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能翻译，具体涉及用于多语种语音识别模型构建的方法。

技术介绍

1、随着社会的发展，车企开始走向世界，在此过程中，产生了更多语种的智能车控交互需求，作为智能车控交互领域的第一关，提升识别和翻译的精度对于交互体验尤为重要。如何在支持更多语种的同时，使用更低的资源，具有更高的翻译精度，是目前亟待解决的问题。

2、相关技术中通过源语种到目标语种的映射进行单独建模，需要耗费大量的资源，还会增加用户使用时的复杂度，同时对于低资源的语种，也会存在识别精度不足的情况。

3、在学术界的多语种语音研究的领域，可以将多个国家的语音同时进行训练，但是，学术界的方案很难就工业层面落地，主要表现为模型过大、推理速度慢、影响用户体验，同时在车机领域效果较差。

技术实现思路

1、有鉴于此，本专利技术提供了一种用于多语种语音识别模型构建的方法，以解决多语种语音识别模型过大，推断速度慢影响用户体验的问题。

2、第一方面，本专利技术提供了一种用于多语种语音识别模型构建的方法，...

【技术保护点】

1.一种用于多语种语音识别模型构建的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述文本标签数据、所述第一语种编码数据和所述第二语种编码数据进行编解码处理，得到第一损失数据和第二损失数据，包括：

3.根据权利要求1或2所述的方法，其特征在于，将所述音频数据输入预设多语种语音识别模型的编码层之前，还包括：

4.根据权利要求1所述的方法，其特征在于，基于所述第一损失数据、所述第二损失数据和所述蒸馏损失数据，构建损失函数，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设多语种语音识别模型为Whispe...

【技术特征摘要】

1.一种用于多语种语音识别模型构建的方法，其特征在于，所述方法包括：

3.根据权利要求1或2所述的方法，其特征在于，将所述音频数据输入预设多语种语音识别模型的编码层之前，还包括：

4.根据权利要求1所述的方法，其特征在于，基于所述第一损失数据、所述第二损失数据和所述蒸馏损失数据，构建损失函数，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设多语种语音识别模型为w...

【专利技术属性】
技术研发人员：赵晴，
申请(专利权)人：镁佳北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人