流式RNN变换器的准确度制造技术

技术编号：37853980 阅读：10 留言：0更新日期：2023-06-14 22:46

提供了一种用于模型训练的计算机实现的方法。该方法包括训练具有双向编码器的第二端到端神经语音识别模型，以从第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。该方法还包括通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型，构建第三端到端神经语音识别模型。别模型。别模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】流式RNN变换器的准确度

技术介绍

[0001]本专利技术一般地涉及信息处理，并且具体地涉及提高用于端到端语音识别的流式循环神经网络(RNN)变换器的准确度。
[0002]RNN变换器(RNN
‑
T)模型的端到端训练不需要音频符号和输出符号之间的帧级对准。结果，由来自不同的RNN
‑
T模型的联合网络定义的后验网格(lattices)中的相应节点可以发出不同的符号，这对RNN
‑
T模型之间的知识蒸馏提出了一组新的挑战。特别地，后验网格中的这些差异在离线RNN
‑
T模型与流式RNN
‑
T模型之间是显著的，因为流式RNN
‑
T模型比离线RNN
‑
T模型更晚地发出符号。

技术实现思路

[0003]根据本专利技术的各方面，提供了一种用于模型训练的计算机实现的方法。所述方法包括训练具有双向编码器的第二端到端神经语音识别模型，以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。所述方法还包括通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型，构建所述第三端到端神经语音识别模型。
[0004]根据本专利技术的其它方面，提供了一种用于模型训练的计算机程序产品。所述计算机程序产品包括非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质中...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于模型训练的计算机实现的方法，包括：训练具有双向编码器的第二端到端神经语音识别模型，以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号；以及通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型，构建所述第三端到端语音识别模型。2.根据权利要求1所述的计算机实现的方法，其中，训练所述第二端到端语音识别模型包括：获得所述第一端到端神经语音识别模型的所述输出概率网格的节点中的每个节点的1
‑
最佳符号；以及最小化端到端神经语音识别模型损失以及关于所述1
‑
最佳符号的交叉熵损失。3.根据权利要求2所述的计算机实现的方法，其中，所述交叉熵损失和所述端到端语音识别模型损失的加权和被最小化。4.根据权利要求2所述的计算机实现的方法，其中，训练所述第三端到端神经语音识别模型包括：相对于最小概率阈值，掩蔽所述第二端到端神经语音识别模型的所述输出概率网格的较小概率的节点；以及联合最小化(i)所述端到端神经语音识别模型损失和(ii)所述第二端到端神经语音识别模型的所述输出概率网格的未掩蔽部分对所述第三端到端语音识别模型的输出概率网格的相对散度。5.根据权利要求4所述的计算机实现的方法，其中，所述相对散度是Kullback
‑
Leibler散度。6.根据权利要求1所述的计算机实现的方法，其中，训练所述第二端到端语音识别模型进一步包括：将训练音频数据输入到所述经训练的第一端到端神经语音识别模型中以获得所述第二端到端神经语音识别模型的所述输出概率网格。7.根据权利要求1所述的计算机实现的方法，其中，所述第一端到端神经语音识别模型和所述第三端到端神经语音识别模型流式传输来自RNN变换器的输出数据，并且所述第二端到端神经语音识别模型离线提供所述输出数据。8.根据权利要求1所述的计算机实现的方法，其中，所述第二端到端神经语音识别模型的所述输出概率网格的所述节点中的每个节点表示softmax操作。9.根据权利要求1所述的计算机实现的方法，还包括：通过在所述经训练的第三端到端神经语音识别模型的输出概率网格上执行波束搜索，执行语音识别。10.根据权利要求1所述的计算机实现的方法，其中，所述第二端到端神经语音识别模型包括比所述第一端到端神经语音识别模型更复杂的神经网络。11.根据权利要求1所述的计算机实现的方法，还包括：基于与所述第二端到端语音识别系统的所述输出概率网格的相似度，评估所述第三端到端神经语音识别模型的所述输出概率网格。12.根据权利要求1所述的计算机实现的方法，其中，训练所述第三端到端神经语音识
别系统，直到所述第三端到端神经语音识别模型的所述输出概率网格与所述第二端到端神经语音识...

【专利技术属性】
技术研发人员：仓田岳人，G，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人