【技术实现步骤摘要】
【国外来华专利技术】用于多语言语音识别框架的系统和方法
[0001]专利技术人:G
·
王、C
·
H
·
霍伊和G
·
I
·
维纳塔
[0002]交叉引用
[0003]公开文本要求2021年1月29日提交的美国专利申请号17/162,624的优先权,该专利申请是根据35U.S.C.119的2020年10月2日提交的美国临时申请号63/086,720的非临时申请并且要求该临时申请的优先权,在此通过引用将两者全部明确并入本文中。
[0004]公开文本总体上涉及机器学习模型和神经网络,并且更具体地,涉及用于多语言语音识别的基于端到端转换的多任务学习框架。
技术介绍
[0005]端到端(E2E)语音识别系统已被应用于处理多语言语音识别任务。E2E系统消除了依赖于语言的词汇、音素单位以及语言模型的需要。对于基于E2E的多语言系统,可以从包含所有目标语言的汇集数据集训练单个网络。与单语系统相比,多语言模型允许跨语言的参数共享和知识转移,这已被证明有利 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于多语言语音识别的系统,所述系统包括:编码器,其包括多个编码器层,其中编码器层包括:第一自关注层,其关注输入的特征;第一语言专用适配器,其将第一自关注输出适配为第一适配器输出,从自关注的特征捕获语言内在知识,第一公共适配器,其将所述第一自关注输出适配为第二适配器输出,从所述自关注的特征捕获语言无关知识,以及第一前馈子层,其基于所述第一适配器输出和所述第二适配器输出的组合而生成所述输入的编码表示;和解码器,其基于来自所述编码器的编码器隐藏状态和先前标记而生成当前标记的逻辑回归输出。2.根据权利要求1所述的系统,其中所述解码器包括多个解码器层,其中来自所述多个解码器层中的解码器层包括:第二自关注层,其关注与所述先前标记相对应的嵌入;交叉关注层,其关注所述编码器隐藏状态和来自所述第二自关注层的第二自关注输出;第二语言专用适配器和第二公共适配器,其适配所述解码器层内的交叉关注输出,以及第二前馈子层,其基于来自所述第二语言专用适配器和所述第二公共适配器的输出的组合而生成所述逻辑回归输出。3.根据权利要求2所述的系统,其中所述解码器是自回归变换解码器,并且其中所述嵌入和所述第二自关注层的参数是从预训练语言模型中的对应物复制的。4.根据权利要求2所述的系统,其中所述交叉关注层将所述编码器隐藏状态作为键和值,并且将所述第二自关注输出作为查询,以计算所述交叉关注输出。5.根据权利要求1所述的系统,其中所述第一语言专用适配器和所述公共适配器中的每个包括向下投影层、ReLU激活模块和向上投影层。6.根据权利要求1所述的系统,其中所述第一语言专用适配器由语言掩码指定,并且其中所述第一适配器输出至少部分地基于所述语言掩码而生成。7.根据权利要求1所述的系统,还包括:语言调整模块,其根据对应的类别先验,通过向每个逻辑回归应用依赖类别的偏移量而调整来自所述解码器的逻辑输出。8.根据权利要求7所述的系统,其中所述类别先验是通过根据多语言训练数据集估计出的句子块标记的频率而计算的。9.根据权利要求7所述的系统,其中经调整的逻辑回归输出被用于计算所述当前标记的预测概率分布。10.根据权利要求1所述的系统,其中所述编码器和所述解码器由损失目标联合训练,所述损失目标是基于来自所述编码器的所述经调整的逻辑回归输出、标签分布和连接主义时间分类输出计算的。11.一种用于多语言语音识别的方法,所述方法包括:
接收多语言话语;由编码器基于所述多语言话语的输入,通过以下计算编码器隐藏状态:由第一自关注模块关注所述多语言话语的特征;由第一语言专用适配器将第一自关注输出适配为第一适配器输出,从自关注的特征捕获语言内在知识,由第一公共适配器将所述第一自关注输出适配为第二适配器输出,从所述自关...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。