端到端语音识别模型训练方法、语音识别方法及相关装置制造方法及图纸

技术编号：30440845 阅读：20 留言：0更新日期：2021-10-24 18:28

本发明专利技术提供的端到端语音识别模型训练方法、语音识别方法及相关装置，该方法包括：根据文本语料，获得训练后的语言模型；根据语言模型构建端到端语音识别模型，并根据音频语料对构建后的端到端语音识别模型进行训练，获得训练后的端到端语音识别模型。本发明专利技术基于数量级较大的文本语料先训练出一个语言模型，让这个语言模型可以学习更多的语言知识，进而，利用训练后的语言模型构建端到端语音识别模型，在结合音频语料进行训练，不仅可以让训练后的模型避免因多音字现象造成识别准确度降低的现象，同时在避免可训练之前需要对音频语料进行标注成本较大的问题。标注成本较大的问题。标注成本较大的问题。

全部详细技术资料下载

【技术实现步骤摘要】
端到端语音识别模型训练方法、语音识别方法及相关装置

[0001]本专利技术涉及语音识别
，具体而言，涉及一种端到端语音识别模型训练方法、语音识别方法及相关装置。

技术介绍

[0002]语音识别(AutomaticSpeechRecognition,简称ASR)，就是将麦克风采集的音频转化为文字的过程，近年来，端到端的语言识别(End
‑
to
‑
EndASR，简称E2E
‑
ASR)已经逐渐成为主流，其语音识别性能相比较于传统的语音识别模型性能更好，由于其模型小，不需要额外的语言模型，可以很容易部署到设备中，能够广泛应用于各个领域。
[0003]然而，目前端到端的语言识别模型在训练过程中需要音频训练语料进行训练，但是很多场景中没有足够多的音频训练语料，因此，模型能够学习到的语言知识较少，又因为其本本本身不具备语言模型，导致解码时容易造成多音字，降低识别准确度，同时在训练之前需要对音频语料进行标注，成本较大。

技术实现思路

[0004]本专利技术的...

【技术保护点】

【技术特征摘要】
1.一种端到端语音识别模型训练方法，其特征在于，所述方法包括：根据文本语料，获得训练后的语言模型；根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型。2.根据权利要求1所述的方法，其特征在于，根据所述语言模型构建端到端语音识别模型，并根据音频语料对构建后的所述端到端语音识别模型进行训练，获得训练后的所述端到端语音识别模型，包括：将所述语言模型构建成所述端到端语音识别模型的解码模块，得到构建后的所述端到端语音识别模型；针对所述构建后的所述端到端语音识别模型，将除所述语言模型的交叉注意力机制参数之外的其他模型参数保持固定，并根据所述音频语料，对所述语言模型的进行训练；其中，所述其他模型参数包括：所述端到端语音识别模型中，除所述语言模型之外的模型参数，和所述语言模型中除所述交叉注意力机制参数之外的参数；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分；当确定所述端到端语音识别模型的损失函数的损失值下降到第一数值且所述第一数值不再变化时，将所述端到端语音识别模型中除所述语言模型之外的模型参数保持固定，根据所述音频语料，对所述语言模型进行训练；当确定所述损失函数的损失值下降到第二数值且所述第二数值不再变化，获得训练后的所述端到端语音识别模型；其中，所述第一数值大于所述第二数值。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：为所述语言模型的每一层配置权重参数，所述权重参数表征所述输出信息被过滤掉的概率；所述交叉注意力机制参数用于计算所述端到端语音识别模型的编码器模块的输出信息的注意力得分的方式如下：根据所述输出信息、所述当前层的权重参数、交叉注意力机制参数以及所述当前层的上一层计算结果获得所述输出信息的注意力得分。4.根据权利要求1所述的方法，其特征在于，根据文本语料，获得训练后的语言模型，包括：获得口语文本语料集和业务文本语料集；其中，所述口语文本语料集是在任意场景下采集的文本集；所述业务文本语料集是在业务场景下采集的用户对应的文本集；根据所述口语文本语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；根据所述业务文本语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。5.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音；将所述待识别语音的音频特征输入训练后的端到端语音识别模型进行识别，获得...

【专利技术属性】
技术研发人员：吴振宗，徐易楠，康世胤，许佳，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人