用于级联编码器的基于transducer的流传输推敲制造技术

技术编号:41444328 阅读:22 留言:0更新日期:2024-05-28 20:36
一种方法(400)包括接收声学帧(110)的序列,并且由第一编码器(210)针对声学帧序列中的对应的声学帧生成第一高阶特征表示(212)。该方法还包括由第一遍transducer解码器(201)针对对应的第一高阶特征表示生成第一遍语音识别假设(120a),以及由文本编码器(240)针对对应的第一遍语音识别假设生成文本编码(242)。该方法还包括由第二编码器(220)针对对应的第一高阶特征表示生成第二高阶特征表示(222)。该方法还包括由第二遍transducer解码器(202)使用对应的第二高阶特征表示和对应的文本编码来生成第二遍语音识别假设(120b)。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于级联编码器(cascaded encoders)的基于transducer的流传输推敲(deliberation)。


技术介绍

1、自动语音识别(asr)系统已经从每个模型具有专用目的的多个模型演变为使用单个神经网络来将音频波形(即,输入序列)直接映射到输出句子(即,输出序列)的集成模型。这种集成已经导致序列到序列方法,该方法当给定音频特征序列时生成单词(或字素)序列。利用集成结构,模型的所有组件可以作为单个端到端(e2e)神经网络联合被训练。这里,e2e模型是指其架构完全由神经网络构成的模型。也就是说,完全神经网络在没有外部和/或手动设计的组件(例如,有限状态transducer、词典(lexicon)或文本规范化模块)的情况下起作用。另外,当训练e2e模型时,这些模型通常不需要来自决策树的自举或来自单独系统的时间对准。这些e2e asr系统已经取得了巨大的进展,在包括字错误率(wer)的若干常见基准方面超越了常规asr系统。例如,涉及用户交互(诸如话音搜索或设备上听写)的许多应用要求模型以流传输方式执行识别。其他应用(如离线视频字幕)不需本文档来自技高网...

【技术保护点】

1.一种用于级联编码器(204)的基于transducer的推敲模型(200),包括:

2.根据权利要求1所述的用于级联编码器(204)的基于transducer的推敲模型(200),进一步包括由所述第一遍transducer解码器(201)和所述第二遍transducer解码器(202)共享的预测网络(300),所述预测网络(300)被配置为:

3.根据权利要求2所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二遍transducer解码器(202)进一步包括联合网络(250),所述联合网络被配置为:

4.根...

【技术特征摘要】
【国外来华专利技术】

1.一种用于级联编码器(204)的基于transducer的推敲模型(200),包括:

2.根据权利要求1所述的用于级联编码器(204)的基于transducer的推敲模型(200),进一步包括由所述第一遍transducer解码器(201)和所述第二遍transducer解码器(202)共享的预测网络(300),所述预测网络(300)被配置为:

3.根据权利要求2所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二遍transducer解码器(202)进一步包括联合网络(250),所述联合网络被配置为:

4.根据权利要求1-3中的任一项所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二编码器(220)在不接收任何声学帧(110)作为输入的情况下生成所述第二高阶特征表示(222)。

5.根据权利要求1-4中的任一项所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第一编码器(210)包括因果编码器,所述因果编码器包括多头注意力层的堆叠。

6.根据权利要求5所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述多头注意力层的堆叠包括conformer层的堆叠。

7.根据权利要求1-6中的任一项所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二编码器(220)包括非因果编码器,所述非因果编码器包括多头注意力层的堆叠。

8.根据权利要求7所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述多头注意力层的堆叠包括conformer层的堆叠。

9.根据权利要求1-8中的任一项所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二遍transducer解码器(202)是在不使用任何纯文本数据的情况下来训练的。

10.根据权利要求1-9中的任一项所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,接收由所述文本编码器(240)在所述多个输出步中的每个输出步处生成的所述文本编码(242)包括:以流传输方式接收所述文本编码(242)的部分序列。

11.根据权利要求10所述的用于级联编码器(204)的基于transducer的推敲模型(200),其中,所述第二遍transducer解码器(202)进一步包括联合网络(250),所述联合网络(250)被配置为确定所述文本编码(242)的所述部分序列与所述第二高阶特征表示(222)的对应的部分之间的注意力上下文矢量。

12.根据权利要求1-11中...

【专利技术属性】
技术研发人员:阿伦·纳拉亚南胡珂塔拉·N·赛纳特庞若鸣特雷弗·施特勒曼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1