【技术实现步骤摘要】
【国外来华专利技术】用于语音识别的场境偏置
[0001]本公开涉及用于语音识别的场境偏置。
技术介绍
[0002]识别语音的场境(context)是自动语音识别(ASR)系统的目标。然而,鉴于人们可能讲出的各式各样的词以及口音和发音的许多变化,识别语音中的场境的能力是有挑战性的。在许多情况下,人讲出的词和短语的类型取决于该人在其所处的场境而变化。
[0003]场境自动语音识别(ASR)涉及使语音识别朝向给定的场境(诸如朝向用户自己的播放列表、联系人或地理地名)偏置。场境信息通常包括要被识别的相关短语的列表,该列表经常包括在训练中不经常看到的罕见短语或甚至外语词。为了执行场境偏置,常规ASR系统有时使用n元语法加权有限状态转换器(WFST)在独立场境语言模型(LM)中对场境信息进行建模,并且将独立场境LM与基线LM组成在一起以用于即时(OTF)重新评分。
[0004]近来,端到端(E2E)模型已经显示出用于ASR的巨大希望,与常规设备上模型相比,展示出改进的词错误率(WER)和时延度量。将声学模型(AM)、发音模型(PM)和LM合并到单个网络中以直接学习语音至文本映射的这些E2E模型与具有单独的AM、PM和LM的常规ASR系统相比已经显示出了有竞争力的结果。代表性E2E模型包括基于词的连接主义时间分类(CTC)模型、循环神经网络转换器(RNN
‑
T)模型以及诸如听、注意和拼写(LAS)的基于注意力的模型。因为E2E模型在波束搜索解码期间维持有限数量的识别候选,所以场境ASR对于E2E模型能够是有挑战性的。 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法(500),包括:在数据处理硬件(610)处接收对话语(104)进行编码的音频数据(108);由所述数据处理硬件(610)获得与所述话语(104)的场境(202)相对应的一个或多个偏置短语(116)的集合,所述一个或多个偏置短语(116)的集合中的每个偏置短语(116)包括一个或多个词;由所述数据处理硬件(610)使用语音识别模型(300)来处理从所述音频数据(108)推导的声学特征(109)以及从所述一个或多个偏置短语(116)的集合推导的字素和音素数据(118,120)以生成所述语音识别模型(300)的输出;以及由所述数据处理硬件(610)基于所述语音识别模型(300)的所述输出来确定针对所述话语(104)的转录(146)。2.根据权利要求1所述的方法(500),其中,所述语音识别模型(300)包括:第一编码器(110),所述第一编码器(110)被配置成接收所述声学特征(109)作为输入,并且从所述声学特征(109)生成音频编码(112)作为输出;第一注意力模块(132),所述第一注意力模块(132)被配置成接收从所述第一编码器(110)输出的所述音频编码(112)作为输入,并且生成第一注意力输出(136)作为输出;字素编码器(122),所述字素编码器(122)被配置成接收指示所述一个或多个偏置短语(116)的集合中的每个词的字素(148)的字素数据(118)作为输入,并且生成字素编码(124)作为输出;音素编码器(126),所述音素编码器(126)被配置成接收指示所述一个或多个偏置短语(116)的集合中的每个词的音素的音素数据(120)作为输入,并且生成音素编码(128)作为输出;第二注意力模块(134),所述第二注意力模块(134)被配置成接收从所述字素编码器(122)输出的所述字素编码(124)和从所述音素编码器(126)输出的所述音素编码(128)的表示作为输入,并且生成第二注意力输出(138)作为输出;以及解码器(142),所述解码器(142)被配置成基于所述第一注意力输出(136)和所述第二注意力输出(138)来确定语音元素(148)的序列的似然性。3.根据权利要求2所述的方法(500),其中,对于所述一个或多个偏置短语(116)的集合中的每个偏置短语(116)的每个特定词:所述字素编码器(122)被配置成生成所述特定词的对应字素编码;所述音素编码器(126)被配置成生成所述特定词的对应音素编码;以及所述第二注意力模块(134)被配置成基于所述特定词的所述对应字素和音素编码(128)对对应的第二注意力输出进行编码,所述对应的第二注意力输出包括所述特定词的对应的场境偏置向量(138)。4.根据权利要求2或者3所述的方法(500),其中,从所述字素编码器(122)输出的所述字素编码(124)和从所述音素编码器(126)输出的所述音素编码(128)的所述表示包括表示所述字素编码(124)与所述音素编码(128)之间的级联的投影向量(130)。5.根据权利要求2
‑
4中的任意一项所述的方法(500),其中,所述第一编码器(110)、所述第一注意力模块(132)、所述字素编码器(122)、所述音素编码器(126)、所述第二注意力模块(134)和所述解码器(142)被联合地训练以根据声学特征帧的序列来预测字素(148)的
序列。6.根据权利要求2
‑
5中的任意一项所述的方法(500),其中:所述第一注意力模块(132)被配置成根据所述解码器(142)的先前隐藏状态和由所述第一编码器(110)输出的音频编码(112)的全序列来计算注意力;并且所述第二注意力模块(134)被配置成根据所述解码器(142)的所述先前隐藏状态以及表示从所述一个或多个偏置短语(116)的集合中的所述偏置短语(116)推导的所述字素数据和音素数据(120)这两者的特性的投影向量(130)的全序列来计算注意力。7.根据权利要求2
‑
6中的任意一项所述的方法(500),其中,所述第二注意力模块(134)被配置成接收不对应于所述一个或多个偏置短语(116)的集合中的任意偏置短语(116)的场境偏置向量(138),所述场境偏置向量(138)表示不偏置所述语音识别模型(300)的所述输出的选项。8.根据权利要求2
‑
7中的任意一项所述的方法(500),其中,所述语音元素包括字素(148)。9.根据权利要求2
‑
7中的任意一项所述的方法(500),其中,所述语音元素包括词或词条。10.根据权利要求1
‑
9中的任意一项所述的方法(500),其中,所述一个或多个偏置短语(116)的集合包括针对特定用户个性化的一个或多个联系人姓名。11.根据权利要求1
‑
10中的任意一项所述的方法(500),其中,所述一个或多个偏置短语(116)的集合包括针对特定用户个性化的一个或多个日历事件(206)。12.根据权利要求1
‑
11中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于讲出所述话语(104)的用户的位置来确定所述话语(104)的所述场境(202)。13.根据权利要求1
‑
12中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于在与讲出所述话语(104)的用户相关联的用户设备(106)上打开的一个或多个应用来确定所述话语(104)的所述场境(202)。14.根据权利要求1
‑
13中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于所述话语(104)的当前日期和/或时间来确定所述话语(104)的所述场境(202)。15.根据权利要求1
‑
14中的任意一项所述的方法(500),其中,所述语音识别模型(300)包括解码器(142),所述解码器(142)被配置成基于以下来确定所述语音识别模型(300)的隐藏状态和所述输出:由所述语音识别模型(300)输出的先前字素的嵌入向量;所述解码器(142)的先前隐藏状态;由第一注意力模块(132)输出的第一向量;以及由第二注意力模块(134)输出的第二向量。16.一种系统(100),包括:数据处理硬件(610);以及存储器硬件(620...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。