用于语音识别的递归神经网络转录器的定制制造技术

技术编号:38760205 阅读:34 留言:0更新日期:2023-09-10 09:45
提供了一种用于定制递归神经网络转录器(RNN

【技术实现步骤摘要】
【国外来华专利技术】用于语音识别的递归神经网络转录器的定制


[0001]本专利技术一般涉及语音识别,尤其涉及用于训练端到端语音识别模型的方法和系统。

技术介绍

[0002]递归神经网络(RNN)是一种人工神经网络,其中节点之间的连接形成沿着时间序列的有向图。这允许RNN分析诸如音素等属性之间的顺序依赖性。从前馈神经网络导出的,RNN可以使用其内部状态(存储器)来处理可变长度输入序列。RNN也可以直接对排序信息进行编码。RNN可以以与原始序列中相同的顺序接收和处理输入。这使得它们可应用于诸如未分段、连接的手写识别或语音识别的任务。时间序列的输入值可以是实值的或符号的。
[0003]RNN可以具有固定数量的参数,并且还可以处理可变数量的输入。RNN可以在序列中的位置数量与网络中的层数之间具有一对一的关系。每一层可具有用于序列中特定位置(例如,时间步长)的单个输入。由此,输入可以根据输入在序列中的位置与隐藏层交互。层架构在时间上重复,因此被称为递归。RNN可能需要输入序列与输出序列之间的预定义对齐来执行转录(transduction)。这可以是限制,因为找到对齐可能是序列转录问题的非常困难的方面。
[0004]端到端(E2E)自动语音识别(ASR)系统可以通过将声学特征映射到输出符号序列来将声学特征序列直接转录成输出符号(音素、字符、字等)序列。用于ASR的端对端模型可以在给定输入音频的情况下直接输出字抄本。

技术实现思路

[0005]根据本专利技术的实施例,提供了一种用于定制递归神经网络转录器(transducer)(RNN

T)的计算机实现的方法。该计算机实现的方法包括从第一域文本数据合成第一域音频数据,以及将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(RNN

T)的经训练的编码器中,其中,使用所合成的第一域音频数据和第一域文本数据来更新编码器。该计算机实现的方法还包括从第二域文本数据合成第二域音频数据,以及将所合成的第二域音频数据馈送到递归神经网络转录器(RNN

T)的经更新的编码器中,其中,使用所合成的第二域音频数据和第二域文本数据来更新预测网络。该计算机实现的方法还包括将经更新的编码器恢复到初始条件。
[0006]根据本专利技术的另一个实施例,提供了一种用于定制递归神经网络转录器(RNN

T)的系统。该系统包括:一个或多个处理器设备;与一个或多个处理器设备中的至少一个通信的存储器;以及显示屏,其中,存储器包括合成器,该合成器被配置为从第一域文本数据合成第一域音频数据,并且从第二域文本数据合成第二域音频数据;以及编码器,该编码器被配置为接收从第一域文本数据生成的所合成的第一域音频数据,其中,编码器是具有初始条件的递归神经网络转录器(RNN

T)的经训练的编码器,其中,编码器被配置为使用所合成的第一域音频数据和第一域文本数据从初始条件更新,其中,编码器还被配置为接收从第
二域文本数据生成的所合成的第二域音频数据。该存储器还包括输出序列生成器,其基于输入特征序列x产生输出符号序列y,该输入特征序列x是被表示为向量的声学特征的时间排序序列。
[0007]根据本专利技术的又一实施例,提供了一种用于定制递归神经网络转录器(RNN

T)的计算机程序产品,该计算机程序产品包括一个或多个计算机可读存储介质以及被共同存储在该一个或多个计算机可读存储介质上的程序指令,该程序指令可由计算机执行。该计算机程序产品在被执行时使得计算机从第一域文本数据合成第一域音频数据,并且将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(RNN

T)的经训练的编码器中,其中,使用所合成的第一域音频数据和第一域文本数据来更新编码器。该计算机程序产品在被执行时还使计算机从第二域文本数据合成第二域音频数据,并且将所合成的第二域音频数据馈送到递归神经网络转录器(RNN

T)的经更新的编码器中,其中,使用所合成的第二域音频数据和第二域文本数据来更新预测器。该计算机程序产品在被执行时还使计算机将经更新的编码器恢复到初始条件。
[0008]根据本专利技术的又一实施例,提供了一种用于定制递归神经网络转录器(RNN

T)的计算机实现的方法。该计算机实现的方法包括从第一域文本数据合成第一域音频数据,并且将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(RNN

T)的经训练的编码器中,其中,使用所合成的第一域音频数据和第一域文本数据来更新编码器,并且编码器将所合成的第一域音频数据编码到声学嵌入a
t
中,其中声学嵌入a
t
将所合成的第一域音频数据压缩到更小的特征空间中。该计算机实现的方法还包括将声学嵌入a
t
馈送给结合器(joiner),并且从第二域文本数据合成第二域音频数据。该计算机实现的方法还包括将所合成的第二域音频数据馈送到经更新的编码器中,其中,经更新的编码器将所合成的第二域音频数据编码成声学嵌入b
t
,其中,声学嵌入b
t
将所合成的第二域音频数据压缩到更小的特征空间中,以及将来自结合器的输出序列馈送到递归神经网络转录器(RNN

T)的预测器中,其中,使用来自所合成的第二域音频数据和第二域文本数据的输出序列来更新预测器。该计算机实现的方法还包括将经更新的编码器恢复到初始条件。
[0009]从以下结合附图阅读的本专利技术的说明性实施例的详细描述中,这些和其它特征和优点将变得显而易见。
附图说明
[0010]以下描述将参考以下附图提供优选实施例的细节,其中:
[0011]图1是根据本专利技术的实施例的可被应用于语音识别的递归神经网络转录器(RNN

T)的架构的图;
[0012]图2是示出根据本专利技术的实施例的用于训练用于语音识别的递归神经网络转录器(RNN

T)的算法的框图/流程图;
[0013]图3是示出根据本专利技术的实施例的用于从文本合成音频特征、更新编码器和预测器、以及恢复编码器的算法的框图/流程图;
[0014]图4是根据本专利技术的实施例的用于RNN

T的后验网格的示图;
[0015]图5是根据本专利技术的实施例的可应用本方法和系统的示例性处理系统;
[0016]图6是根据本专利技术的实施例的被配置为实现用于对道路布局建模的一个或多个神
经网络的示例性处理系统;
[0017]图7是示意性地描绘根据本专利技术的另一实施例的示例性神经网络的框图;
[0018]图8是示出根据实施例的具有一个或多个云计算节点的说明性云计算环境的框图,其中由云消费者使用的本地计算设备与云计算节点通信;以及
[0019]图9是示出根据实施例的由云计算环境提供的一组功能抽象层的框图。
具体实施方式
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于定制递归神经网络转录器(RNN

T)的计算机实现的方法,包括:从第一域文本数据合成第一域音频数据;将所合成的第一域音频数据馈送到具有初始条件的所述递归神经网络转录器(RNN

T)的经训练的编码器中,其中,使用所合成的第一域音频数据和所述第一域文本数据来更新所述编码器;从第二域文本数据合成第二域音频数据;将所合成的第二域音频数据馈送到所述递归神经网络转录器(RNN

T)的经更新的编码器中,其中,使用所合成的第二域音频数据和所述第二域文本数据来更新所述预测网络;以及将所述经更新的编码器恢复到所述初始条件。2.根据权利要求1所述的方法,其中,所述递归神经网络转录器(RNN

T)包括将所述编码器的输出与所述预测器的输出相组合的结合器。3.根据权利要求2所述的方法,其中,所述结合产生输出,作为被馈送到softmax函数中的感应局部场z
t,u
。4.根据权利要求3所述的方法,其中,所述softmax函数生成后验概率P(y|t,u)。5.根据权利要求4所述的方法,其中,所述后验概率生成器P(y|t,u)基于输入特征序列x生成输出,所述输出是输出序列y=(y1,y2,...y
U
‑1,y
U
),所述输出序列是长度为U的输出序列,所述输入特征序列x是被表示为向量的声学特征的时间排序序列。6.根据权利要求5所述的方法,其中,所述输入特征序列x是从所合成的第一域音频数据导出的。7.一种用于定制递归神经网络转录器(RNN

T)的系统,包括:一个或多个处理器设备;存储器,其与所述一个或多个处理器设备中的至少一个处理器设备通信;以及显示屏;其中,所述存储器包括:编码器,被配置为接收从第一域文本数据生成的所合成的第一域音频数据,其中,所述编码器是具有初始条件的所述递归神经网络转录器(RNN

T)的经训练的编码器,其中,所述编码器被配置为使用所合成的第一域音频数据和所述第一域文本数据从所述初始条件更新,其中,所述编码器还被配置为接收从第二域文本数据生成的所合成的第二域音频数据;以及输出序列生成器,其基于输入特征序列x产生输出符号序列y,所述输入特征序列x是被表示为向量的声学特征的时间排序序列。8.根据权利要求7所述的系统,其中,所述存储器进一步包括结合器,所述结合器被配置为将所述经训练的编码器的输出与所述预测器的输出相组合。9.根据权利要求8所述的系统,其中,所述结合器产生感应局部场z
t,u
作为所述输出。10.根据权利要求9所述的系统,其中,所述存储器还包括softmax函数,所述softmax函数被配置为接收感应局部场z
t,u
,并生成输出。11.根据权利要求10所述的系统,其中,所述输出序列y=(y1,y2,...y
U
‑1,y
U
)是基于输入特征序列x的长度为U的输出序列,所述输入特征序列x是被表示为向量的声学特征的时
间排序序列。12.根据权利要求11所述的系统,其中,所述存储器还包括合成器,所述合成器被配置为从第一域文本数据合成第一域音频数据,并且从第二域文本数据合成第二域音频数据。13.根据权利要求12所述的系统,其中,所述编码器还被配置为恢复到所述初始条件。14.一种用于定制递归神经网络转录器(RNN
‑<...

【专利技术属性】
技术研发人员:仓田岳人G
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1