用于语音识别的递归神经网络转录器的定制制造技术

技术编号：38760205 阅读：34 留言：0更新日期：2023-09-10 09:45

提供了一种用于定制递归神经网络转录器(RNN

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于语音识别的递归神经网络转录器的定制

[0001]本专利技术一般涉及语音识别，尤其涉及用于训练端到端语音识别模型的方法和系统。

技术介绍

[0002]递归神经网络(RNN)是一种人工神经网络，其中节点之间的连接形成沿着时间序列的有向图。这允许RNN分析诸如音素等属性之间的顺序依赖性。从前馈神经网络导出的，RNN可以使用其内部状态(存储器)来处理可变长度输入序列。RNN也可以直接对排序信息进行编码。RNN可以以与原始序列中相同的顺序接收和处理输入。这使得它们可应用于诸如未分段、连接的手写识别或语音识别的任务。时间序列的输入值可以是实值的或符号的。
[0003]RNN可以具有固定数量的参数，并且还可以处理可变数量的输入。RNN可以在序列中的位置数量与网络中的层数之间具有一对一的关系。每一层可具有用于序列中特定位置(例如，时间步长)的单个输入。由此，输入可以根据输入在序列中的位置与隐藏层交互。层架构在时间上重复，因此被称为递归。RNN可能需要输入序列与输出序列之间的预定义对齐来执行转录(transduction)。这可以是限制，因为找到对齐可能是序列转录问题的非常困难的方面。
[0004]端到端(E2E)自动语音识别(ASR)系统可以通过将声学特征映射到输出符号序列来将声学特征序列直接转录成输出符号(音素、字符、字等)序列。用于ASR的端对端模型可以在给定输入音频的情况下直接输出字抄本。

技术实现思路

[0005]根据本专利技术的实施例，提供了一种用于定制递归神经网络转录器(transdu...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于定制递归神经网络转录器(RNN
‑
T)的计算机实现的方法，包括：从第一域文本数据合成第一域音频数据；将所合成的第一域音频数据馈送到具有初始条件的所述递归神经网络转录器(RNN
‑
T)的经训练的编码器中，其中，使用所合成的第一域音频数据和所述第一域文本数据来更新所述编码器；从第二域文本数据合成第二域音频数据；将所合成的第二域音频数据馈送到所述递归神经网络转录器(RNN
‑
T)的经更新的编码器中，其中，使用所合成的第二域音频数据和所述第二域文本数据来更新所述预测网络；以及将所述经更新的编码器恢复到所述初始条件。2.根据权利要求1所述的方法，其中，所述递归神经网络转录器(RNN
‑
T)包括将所述编码器的输出与所述预测器的输出相组合的结合器。3.根据权利要求2所述的方法，其中，所述结合产生输出，作为被馈送到softmax函数中的感应局部场z
t,u
。4.根据权利要求3所述的方法，其中，所述softmax函数生成后验概率P(y|t,u)。5.根据权利要求4所述的方法，其中，所述后验概率生成器P(y|t,u)基于输入特征序列x生成输出，所述输出是输出序列y＝(y1,y2,...y
U
‑1,y
U
)，所述输出序列是长度为U的输出序列，所述输入特征序列x是被表示为向量的声学特征的时间排序序列。6.根据权利要求5所述的方法，其中，所述输入特征序列x是从所合成的第一域音频数据导出的。7.一种用于定制递归神经网络转录器(RNN
‑
T)的系统，包括：一个或多个处理器设备；存储器，其与所述一个或多个处理器设备中的至少一个处理器设备通信；以及显示屏；其中，所述存储器包括：编码器，被配置为接收从第一域文本数据生成的所合成的第一域音频数据，其中，所述编码器是具有初始条件的所述递归神经网络转录器(RNN
‑
T)的经训练的编码器，其中，所述编码器被配置为使用所合成的第一域音频数据和所述第一域文本数据从所述初始条件更新，其中，所述编码器还被配置为接收从第二域文本数据生成的所合成的第二域音频数据；以及输出序列生成器，其基于输入特征序列x产生输出符号序列y，所述输入特征序列x是被表示为向量的声学特征的时间排序序列。8.根据权利要求7所述的系统，其中，所述存储器进一步包括结合器，所述结合器被配置为将所述经训练的编码器的输出与所述预测器的输出相组合。9.根据权利要求8所述的系统，其中，所述结合器产生感应局部场z
t,u
作为所述输出。10.根据权利要求9所述的系统，其中，所述存储器还包括softmax函数，所述softmax函数被配置为接收感应局部场z
t,u
，并生成输出。11.根据权利要求10所述的系统，其中，所述输出序列y＝(y1,y2,...y
U
‑1,y
U
)是基于输入特征序列x的长度为U的输出序列，所述输入特征序列x是被表示为向量的声学特征的时
间排序序列。12.根据权利要求11所述的系统，其中，所述存储器还包括合成器，所述合成器被配置为从第一域文本数据合成第一域音频数据，并且从第二域文本数据合成第二域音频数据。13.根据权利要求12所述的系统，其中，所述编码器还被配置为恢复到所述初始条件。14.一种用于定制递归神经网络转录器(RNN
‑<...

【专利技术属性】
技术研发人员：仓田岳人，G，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人