用于语音识别的场境偏置制造技术

技术编号:32206304 阅读:10 留言:0更新日期:2022-02-09 17:11
一种用于偏置语音识别的方法(500)包括,接收对话语(104)进行编码的音频数据(108)和获得与话语的场境(202)相对应的一个或多个偏置短语(116)的集合。一个或多个偏置短语的集合中的每个偏置短语包括一个或多个词。该方法还包括使用语音识别模型(300)来处理从音频数据推导的声学特征(109)以及从一个或多个偏置短语的集合推导的字素和音素数据(118,120)以生成语音识别模型的输出。该方法还包括基于语音识别模型的输出来确定针对话语的转录(146)。(146)。(146)。

【技术实现步骤摘要】
【国外来华专利技术】用于语音识别的场境偏置


[0001]本公开涉及用于语音识别的场境偏置。

技术介绍

[0002]识别语音的场境(context)是自动语音识别(ASR)系统的目标。然而,鉴于人们可能讲出的各式各样的词以及口音和发音的许多变化,识别语音中的场境的能力是有挑战性的。在许多情况下,人讲出的词和短语的类型取决于该人在其所处的场境而变化。
[0003]场境自动语音识别(ASR)涉及使语音识别朝向给定的场境(诸如朝向用户自己的播放列表、联系人或地理地名)偏置。场境信息通常包括要被识别的相关短语的列表,该列表经常包括在训练中不经常看到的罕见短语或甚至外语词。为了执行场境偏置,常规ASR系统有时使用n元语法加权有限状态转换器(WFST)在独立场境语言模型(LM)中对场境信息进行建模,并且将独立场境LM与基线LM组成在一起以用于即时(OTF)重新评分。
[0004]近来,端到端(E2E)模型已经显示出用于ASR的巨大希望,与常规设备上模型相比,展示出改进的词错误率(WER)和时延度量。将声学模型(AM)、发音模型(PM)和LM合并到单个网络中以直接学习语音至文本映射的这些E2E模型与具有单独的AM、PM和LM的常规ASR系统相比已经显示出了有竞争力的结果。代表性E2E模型包括基于词的连接主义时间分类(CTC)模型、循环神经网络转换器(RNN

T)模型以及诸如听、注意和拼写(LAS)的基于注意力的模型。因为E2E模型在波束搜索解码期间维持有限数量的识别候选,所以场境ASR对于E2E模型能够是有挑战性的。

技术实现思路

[0005]本文的实施方式致力于将语音识别模型朝向与当前场境相关的短语集合偏置。短语集合是动态的,因为短语可以随着场境改变而改变。除了短语的书面表示之外,语音识别模型还可以进一步考虑用于偏置的短语的发音。例如,模型能够使用表示偏置短语的文本信息(例如,字素序列)和发音信息(例如,音素序列)来选择哪些短语最适用于被识别的语音。这允许语音模型的场境偏置方面知道个别偏置短语的发音,从而使得模型能够在识别罕见词和具有异常发音的词时实现高得多的准确性。本文讨论的场境偏置技术能够与各种类型的语音识别模型一起使用,所述语音识别模型包括能够在没有单独的声学模型、发音模型和语言模型的情况下生成转录数据的端到端模型。
[0006]为了提供高的语音识别准确性,通用自动语音识别(ASR)系统可以使用指示在其中发生语音的场境的信息。场境可以与例如用户的联系人、日历约会、打开应用和位置有关。ASR系统的一个示例包含单独的声学、发音和语言模型。其他ASR系统将声学、发音和语言模型组合为单个神经网络。单个神经网络模型改进简单性和质量,并且优化词错误率(WER)。
[0007]对于常规的基于神经网络的ASR模型,识别在语言中不常出现的词是有挑战性的。语言中的词的分布通常遵循其中少量词被很频繁地使用并且大量词被很少使用的Zipfian
分布。可能难以获得足够大的具有音频和对应文本的训练数据集来有效地提供罕见词的示例。即使足够的训练数据可用,添加越来越多的训练示例也常常产生越来越低的幅度的改进。附加地,这些模型识别相对于拼写具有异常发音的词是有挑战性的。
[0008]将场境偏置并入到基于神经网络的ASR模型中能够改进对罕见词和具有异常发音的词的识别。一个有用的应用是为了更好地识别专有名称(即,诸如人名、歌曲名称、城市名称等的专有名词),这些专有名称在训练数据中可能相对罕见和/或可以不遵循典型的发音规则。例如,智能电话或其他用户设备常常存储用户的联系人。当用户正在使用消息传送或电话呼叫应用时,能够将此信息用作场境来帮助ASR系统识别由用户讲出的名称。以类似的方式,用户的音乐库中的歌曲的列表能够用于偏置语音识别,例如,当用户正在使用媒体播放器应用时。本文的实施方式致力于通过将与偏置短语的书面形式和发音这两者相关联的信息注入到ASR模型来对ASR模型应用场境偏置。即使在ASR模型的训练期间未观察到这些词,根据场境偏置ASR模型也并入罕见词发音的知识。
[0009]本公开的一个方面提供一种用于偏置语音识别的方法,该方法包括:在数据处理硬件处接收对话语进行编码的音频数据;以及由数据处理硬件获得与话语的场境相对应的一个或多个偏置短语的集合,一个或多个偏置短语的集合中的每个偏置短语包括一个或多个词。该方法还包括:由数据处理硬件使用语音识别模型来处理从音频数据推导的声学特征以及从一个或多个偏置短语的集合推导的字素和音素数据以生成语音识别模型的输出。该方法还包括由数据处理硬件基于语音识别模型的输出来确定针对话语的转录。
[0010]本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,语音识别模型包括第一编码器、第一注意力模块、字素编码器、音素编码器、第二注意力模块和解码器。第一编码器被配置成接收声学特征作为输入并且从声学特征生成音频编码作为输出。第一注意力模块被配置成接收从第一编码器输出的音频编码作为输入并且生成第一注意力输出作为输出。字素编码器被配置成接收指示一个或多个偏置短语的集合中的每个词的字素的字素数据作为输入并且生成字素编码作为输出。音素编码器被配置成接收指示一个或多个偏置短语的集合中的每个词的音素的音素数据作为输入并且生成音素编码作为输出。第二注意力模块被配置成接收从字素编码器输出的字素编码和从音素编码器输出的音素编码的表示作为输入并且生成第二注意力输出作为输出。解码器被配置成基于第一注意力输出和第二注意力输出来确定语音元素的序列的似然性。
[0011]在一些示例中,对于一个或多个偏置短语的集合中的每个偏置短语的每个特定词:字素编码器被配置成生成特定词的对应字素编码;音素编码器被配置成生成特定词的对应音素编码;并且第二注意力模块被配置成基于特定词的对应字素和音素编码对对应第二注意力输出进行编码,该对应第二注意力输出包括特定词的对应场境偏置向量。在附加示例中,从字素编码器输出的字素编码和从音素编码器输出的音素编码的表示包括表示字素编码与音素编码之间的级联的投影向量。附加地,可以联合地训练第一编码器、第一注意力模块、字素编码器、音素编码器、第二注意力模块和解码器以根据声学特征帧的序列来预测字素的序列。
[0012]在一些实施方式中,第一注意力模块被配置成根据解码器的先前隐藏状态和由第一编码器输出的音频编码的全序列来计算注意力,然而第二注意力模块被配置成根据解码器的先前隐藏状态以及表示从一个或多个偏置短语的集合中的偏置短语推导的字素数据
和音素数据这两者的特性的投影向量的全序列来计算注意力。在附加实施方式中,第二注意力模块被配置成接收不对应于一个或多个偏置短语的集合中的任一个偏置短语的场境偏置向量,该场境偏置向量表示不偏置语音识别模型的输出的选项。在一些示例中,语音元素包括字素。在其他示例中,语音元素包括词或词条。可选地,语音元素可以包括音素。
[0013]一个或多个偏置短语的集合可以包括针对特定用户个性化的一个或多个联系人姓名。附加地或可替换地,一个或多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(500),包括:在数据处理硬件(610)处接收对话语(104)进行编码的音频数据(108);由所述数据处理硬件(610)获得与所述话语(104)的场境(202)相对应的一个或多个偏置短语(116)的集合,所述一个或多个偏置短语(116)的集合中的每个偏置短语(116)包括一个或多个词;由所述数据处理硬件(610)使用语音识别模型(300)来处理从所述音频数据(108)推导的声学特征(109)以及从所述一个或多个偏置短语(116)的集合推导的字素和音素数据(118,120)以生成所述语音识别模型(300)的输出;以及由所述数据处理硬件(610)基于所述语音识别模型(300)的所述输出来确定针对所述话语(104)的转录(146)。2.根据权利要求1所述的方法(500),其中,所述语音识别模型(300)包括:第一编码器(110),所述第一编码器(110)被配置成接收所述声学特征(109)作为输入,并且从所述声学特征(109)生成音频编码(112)作为输出;第一注意力模块(132),所述第一注意力模块(132)被配置成接收从所述第一编码器(110)输出的所述音频编码(112)作为输入,并且生成第一注意力输出(136)作为输出;字素编码器(122),所述字素编码器(122)被配置成接收指示所述一个或多个偏置短语(116)的集合中的每个词的字素(148)的字素数据(118)作为输入,并且生成字素编码(124)作为输出;音素编码器(126),所述音素编码器(126)被配置成接收指示所述一个或多个偏置短语(116)的集合中的每个词的音素的音素数据(120)作为输入,并且生成音素编码(128)作为输出;第二注意力模块(134),所述第二注意力模块(134)被配置成接收从所述字素编码器(122)输出的所述字素编码(124)和从所述音素编码器(126)输出的所述音素编码(128)的表示作为输入,并且生成第二注意力输出(138)作为输出;以及解码器(142),所述解码器(142)被配置成基于所述第一注意力输出(136)和所述第二注意力输出(138)来确定语音元素(148)的序列的似然性。3.根据权利要求2所述的方法(500),其中,对于所述一个或多个偏置短语(116)的集合中的每个偏置短语(116)的每个特定词:所述字素编码器(122)被配置成生成所述特定词的对应字素编码;所述音素编码器(126)被配置成生成所述特定词的对应音素编码;以及所述第二注意力模块(134)被配置成基于所述特定词的所述对应字素和音素编码(128)对对应的第二注意力输出进行编码,所述对应的第二注意力输出包括所述特定词的对应的场境偏置向量(138)。4.根据权利要求2或者3所述的方法(500),其中,从所述字素编码器(122)输出的所述字素编码(124)和从所述音素编码器(126)输出的所述音素编码(128)的所述表示包括表示所述字素编码(124)与所述音素编码(128)之间的级联的投影向量(130)。5.根据权利要求2

4中的任意一项所述的方法(500),其中,所述第一编码器(110)、所述第一注意力模块(132)、所述字素编码器(122)、所述音素编码器(126)、所述第二注意力模块(134)和所述解码器(142)被联合地训练以根据声学特征帧的序列来预测字素(148)的
序列。6.根据权利要求2

5中的任意一项所述的方法(500),其中:所述第一注意力模块(132)被配置成根据所述解码器(142)的先前隐藏状态和由所述第一编码器(110)输出的音频编码(112)的全序列来计算注意力;并且所述第二注意力模块(134)被配置成根据所述解码器(142)的所述先前隐藏状态以及表示从所述一个或多个偏置短语(116)的集合中的所述偏置短语(116)推导的所述字素数据和音素数据(120)这两者的特性的投影向量(130)的全序列来计算注意力。7.根据权利要求2

6中的任意一项所述的方法(500),其中,所述第二注意力模块(134)被配置成接收不对应于所述一个或多个偏置短语(116)的集合中的任意偏置短语(116)的场境偏置向量(138),所述场境偏置向量(138)表示不偏置所述语音识别模型(300)的所述输出的选项。8.根据权利要求2

7中的任意一项所述的方法(500),其中,所述语音元素包括字素(148)。9.根据权利要求2

7中的任意一项所述的方法(500),其中,所述语音元素包括词或词条。10.根据权利要求1

9中的任意一项所述的方法(500),其中,所述一个或多个偏置短语(116)的集合包括针对特定用户个性化的一个或多个联系人姓名。11.根据权利要求1

10中的任意一项所述的方法(500),其中,所述一个或多个偏置短语(116)的集合包括针对特定用户个性化的一个或多个日历事件(206)。12.根据权利要求1

11中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于讲出所述话语(104)的用户的位置来确定所述话语(104)的所述场境(202)。13.根据权利要求1

12中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于在与讲出所述话语(104)的用户相关联的用户设备(106)上打开的一个或多个应用来确定所述话语(104)的所述场境(202)。14.根据权利要求1

13中的任意一项所述的方法(500),进一步包括,由所述数据处理硬件(610)基于所述话语(104)的当前日期和/或时间来确定所述话语(104)的所述场境(202)。15.根据权利要求1

14中的任意一项所述的方法(500),其中,所述语音识别模型(300)包括解码器(142),所述解码器(142)被配置成基于以下来确定所述语音识别模型(300)的隐藏状态和所述输出:由所述语音识别模型(300)输出的先前字素的嵌入向量;所述解码器(142)的先前隐藏状态;由第一注意力模块(132)输出的第一向量;以及由第二注意力模块(134)输出的第二向量。16.一种系统(100),包括:数据处理硬件(610);以及存储器硬件(620...

【专利技术属性】
技术研发人员:罗希特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1