流式RNN变换器的准确度制造技术

技术编号:37853980 阅读:10 留言:0更新日期:2023-06-14 22:46
提供了一种用于模型训练的计算机实现的方法。该方法包括训练具有双向编码器的第二端到端神经语音识别模型,以从第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。该方法还包括通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型,构建第三端到端神经语音识别模型。别模型。别模型。

【技术实现步骤摘要】
【国外来华专利技术】流式RNN变换器的准确度

技术介绍

[0001]本专利技术一般地涉及信息处理,并且具体地涉及提高用于端到端语音识别的流式循环神经网络(RNN)变换器的准确度。
[0002]RNN变换器(RNN

T)模型的端到端训练不需要音频符号和输出符号之间的帧级对准。结果,由来自不同的RNN

T模型的联合网络定义的后验网格(lattices)中的相应节点可以发出不同的符号,这对RNN

T模型之间的知识蒸馏提出了一组新的挑战。特别地,后验网格中的这些差异在离线RNN

T模型与流式RNN

T模型之间是显著的,因为流式RNN

T模型比离线RNN

T模型更晚地发出符号。

技术实现思路

[0003]根据本专利技术的各方面,提供了一种用于模型训练的计算机实现的方法。所述方法包括训练具有双向编码器的第二端到端神经语音识别模型,以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。所述方法还包括通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型,构建所述第三端到端神经语音识别模型。
[0004]根据本专利技术的其它方面,提供了一种用于模型训练的计算机程序产品。所述计算机程序产品包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质中包含程序指令,所述程序指令能够由计算机执行以使得所述计算机执行一种方法。所述方法包括训练具有双向编码器的第二端到端神经语音识别模型,以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。所述方法还包括通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型,构建所述第三端到端神经语音识别模型。
[0005]根据本专利技术的其他方面,提供了一种用于模型训练的计算机处理系统。所述计算机处理系统包括用于存储程序代码的存储设备。所述计算机处理系统还包括硬件处理器,其可操作地耦接到所述存储设备以用于运行所述程序代码以训练具有双向编码器的第二端到端神经语音识别模型,以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号。所述硬件处理器还运行所述程序代码以通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型,构建所述第三端到端神经语音识别模型。
[0006]从以下结合附图阅读的对本专利技术的说明性实施例的详细描述中,这些和其它特征和优点将变得显而易见。
附图说明
[0007]以下描述将参考以下附图提供优选实施例的细节,其中:
[0008]图1是示出了根据本专利技术的实施例的示例性计算设备的框图;
[0009]图2

3示出了根据本专利技术的实施例的用于提高用于端到端语音识别的流式RNN变换器的准确度的示例性方法;
[0010]图4示出了根据本专利技术的实施例的示例性单向RNN

T架构;
[0011]图5示出了根据本专利技术的实施例的示例性双向RNN

T架构;
[0012]图6是进一步示出根据本专利技术的实施例的图4和5的输出概率网格的框图;
[0013]图7是图形地示出了根据本专利技术的实施例的在图2的方法200的框中涉及的元件的框图;
[0014]图8是图形地示出了根据本专利技术的实施例的在图2的方法200的另一个框中涉及的元件的框图;
[0015]图9是图形地示出了根据本专利技术的实施例的在图2的方法200的又一个框中涉及的元件的框图;
[0016]图10是进一步图形地示出了根据本专利技术的实施例的在图2的框中涉及的RNN

T元件的框图;
[0017]图11是示出了根据本专利技术的实施例的具有由云消费者使用的本地计算设备与其通信的一个或多个云计算节点的说明性云计算环境的框图;以及
[0018]图12是示出了根据本专利技术的实施例的由云计算环境提供的一组功能抽象层的框图。
具体实施方式
[0019]本专利技术的实施例涉及提高用于端到端语音识别的流式循环神经网络(RNN)变换器的准确度。
[0020]根据本专利技术的实施例,提出了一种训练RNN

T模型的方法,使得RNN

T模型的后验网格的节点发出的符号与来自预先训练的RNN

T模型的后验网格的对应节点的符号相同。利用此方法,能够训练离线RNN

T模型,以作为训练学生流式RNN

T模型的良好教师。
[0021]应当理解,虽然在这里阐述的实施例中主要描述了RNN

T模型,但是其他模型包括例如但不限于变压器变换器(transformer transducer)、具有无状态预测网络的RNN变换器等。
[0022]图1是示出根据本专利技术的实施例的示例性计算设备100的框图。计算设备100被配置为提高用于端到端语音识别的流式RNN变换器模型的准确度。
[0023]计算设备100可以被体现为能够执行本文描述的功能的任何类型的计算或计算机设备,包括但不限于计算机、服务器、基于机架的服务器、刀片服务器、工作站、台式计算机、膝上型计算机、笔记本计算机、平板计算机、移动计算设备、可穿戴计算设备、网络装置、web装置、分布式计算系统、基于处理器的系统和/或消费电子设备。附加地或替代地,计算设备100可以被实现为一个或多个计算机滑轨(sled)、存储器滑轨或其他机架、滑轨、计算机架或物理上分离的计算设备的其他组件。如图1所示,计算设备100说明性地包括处理器110、输入/输出子系统120、存储器130、数据存储设备140和通信子系统150、和/或服务器或类似
计算设备中常见的其他组件和设备。当然,在其他实施例中,计算设备100可以包括其他或附加组件,诸如在服务器计算机中常见的那些组件(例如,各种输入/输出设备)。另外,在一些实施例中,一个或多个说明性组件可以被并入另一组件中,或者以其他方式形成另一组件的一部分。例如,在一些实施例中,存储器130或其部分可以被并入处理器110中。
[0024]处理器110可以被实现为能够执行本文描述的功能的任何类型的处理器。处理器110可以被实现为单个处理器、多个处理器、中央处理单元(CPU)、图形处理单元(GPU)、单核或多核处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。
[0025]存储器130可以被实现为能够执行本文描述的功能的任何类型的易失性或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于模型训练的计算机实现的方法,包括:训练具有双向编码器的第二端到端神经语音识别模型,以从所述第二端到端神经语音识别模型的输出概率网格中输出与从具有单向编码器的经训练的第一端到端神经语音识别模型的输出概率网格中输出的符号相同的符号;以及通过在知识蒸馏方法中使用经训练的第二端到端神经语音识别模型作为教师来训练作为学生的具有单向编码器的第三端到端神经语音识别模型,构建所述第三端到端语音识别模型。2.根据权利要求1所述的计算机实现的方法,其中,训练所述第二端到端语音识别模型包括:获得所述第一端到端神经语音识别模型的所述输出概率网格的节点中的每个节点的1

最佳符号;以及最小化端到端神经语音识别模型损失以及关于所述1

最佳符号的交叉熵损失。3.根据权利要求2所述的计算机实现的方法,其中,所述交叉熵损失和所述端到端语音识别模型损失的加权和被最小化。4.根据权利要求2所述的计算机实现的方法,其中,训练所述第三端到端神经语音识别模型包括:相对于最小概率阈值,掩蔽所述第二端到端神经语音识别模型的所述输出概率网格的较小概率的节点;以及联合最小化(i)所述端到端神经语音识别模型损失和(ii)所述第二端到端神经语音识别模型的所述输出概率网格的未掩蔽部分对所述第三端到端语音识别模型的输出概率网格的相对散度。5.根据权利要求4所述的计算机实现的方法,其中,所述相对散度是Kullback

Leibler散度。6.根据权利要求1所述的计算机实现的方法,其中,训练所述第二端到端语音识别模型进一步包括:将训练音频数据输入到所述经训练的第一端到端神经语音识别模型中以获得所述第二端到端神经语音识别模型的所述输出概率网格。7.根据权利要求1所述的计算机实现的方法,其中,所述第一端到端神经语音识别模型和所述第三端到端神经语音识别模型流式传输来自RNN变换器的输出数据,并且所述第二端到端神经语音识别模型离线提供所述输出数据。8.根据权利要求1所述的计算机实现的方法,其中,所述第二端到端神经语音识别模型的所述输出概率网格的所述节点中的每个节点表示softmax操作。9.根据权利要求1所述的计算机实现的方法,还包括:通过在所述经训练的第三端到端神经语音识别模型的输出概率网格上执行波束搜索,执行语音识别。10.根据权利要求1所述的计算机实现的方法,其中,所述第二端到端神经语音识别模型包括比所述第一端到端神经语音识别模型更复杂的神经网络。11.根据权利要求1所述的计算机实现的方法,还包括:基于与所述第二端到端语音识别系统的所述输出概率网格的相似度,评估所述第三端到端神经语音识别模型的所述输出概率网格。12.根据权利要求1所述的计算机实现的方法,其中,训练所述第三端到端神经语音识
别系统,直到所述第三端到端神经语音识别模型的所述输出概率网格与所述第二端到端神经语音识...

【专利技术属性】
技术研发人员:仓田岳人G
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1