数字序列的端到端自动语音识别制造技术

技术编号:31474734 阅读:25 留言:0更新日期:2021-12-18 12:04
一种方法(500),包括接收包含数字序列的话语(106)的音频数据(110),以及使用序列到序列语音识别模型(200)对所述话语的音频数据进行解码,以生成所述话语(106)的中间转录(115)作为所述序列到序列语音识别模型(200)的输出。该方法还包括使用神经校正器/去规范器(300)处理所述中间转录以生成表示书面域中的话语的所述数字序列的最终转录(120)。在训练样本集上训练神经校正器/反常器,每个训练样本包括用于相应训练话语的语音识别假设以及所述相应训练话语的基础真值转录(424)。所述相应训练话语的基础真值转录在所述书面域中。该方法还包括提供表示所述书面域中的所述话语的所述数字序列的所述最终转录以供输出。语的所述数字序列的所述最终转录以供输出。语的所述数字序列的所述最终转录以供输出。

【技术实现步骤摘要】
【国外来华专利技术】数字序列的端到端自动语音识别


[0001]本公开涉及对数字序列的端到端自动语音识别。

技术介绍

[0002]自动语音识别(Automated Speech Recognition,ASR)系统中的一个持续的挑战是对不能准确反映话语(Utterance)中所说的单词的转录进行建模。特别地,由于长书面域(Written

domain)数字序列的固有词汇表之外的问题,诸如地址、电话号码、和邮政编码之类的数字话语是对转录建模的特别困难的部分。这是数据稀疏(Sparsity)的结果,因为在训练数据中不太可能存在长数字序列。
[0003]对于长数字序列,很难获得足够量的训练数据,因为例如十位数的数字可具有10
10
个可能的实例。例如,对于十位数字的电话号码,在训练中根本不可能看到任何特定的电话号码,也不可能看到足够数量的特定的电话号码。
[0004]近来,流式传输、循环神经网络转换器(Recurrent Neural Network

Transducer,RNN<br/>‑
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法(500),其特征在于,所述方法包括:在数据处理硬件(610)处接收包含数字序列的话语(106)的音频数据(110);由所述数据处理硬件(610)使用序列到序列语音识别模型(200)对所述话语(106)的所述音频数据(110)进行解码,以生成所述话语(106)的中间转录(115)作为所述序列到序列语音识别模型(200)的输出;由所述数据处理硬件(610)使用神经校正器/去规范器(300)处理从所述序列到序列语音识别模型(200)输出的所述中间转录(115),以生成最终转录(120),所述最终转录(120)表示书面域中的所述话语(106)的所述数字序列,所述神经校正器/去规范器(300)在训练样本集上训练,每个训练样本包括用于相应训练话语(422)的语音识别假设(115)以及所述相应训练话语(422)的基础真值转录(424),其中,所述相应训练话语(422)的所述基础真值转录(424)在所述书面域中;以及由所述数据处理硬件(610)提供表示所述书面域中的所述话语(106)的所述数字序列的所述最终转录(120)以供输出。2.根据权利要求1所述的方法(500),其特征在于,从所述序列到序列语音识别模型(200)输出的所述中间转录(115)在口语域中;以及用于训练所述神经校正器/去规范器(300)的所述训练样本集中的每个训练样本的所述语音识别假设在所述口语域中。3.根据权利要求2所述的方法(500),其特征在于,处理所述中间转录(115)包括将所述神经校正器/去规范器(300)用作书面域去规范模型,所述书面域去规范模型被配置为:接收从所述序列到序列语音识别模型(200)输出的所述口语域中的所述中间转录(115)作为输入;以及生成所述书面域中的所述话语(106)的所述最终转录(120)作为输出,所述书面域中的所述话语(106)的所述最终转录(120)将所述数字序列表示为相应的数字表示。4.根据权利要求1

3中任一项所述的方法(500),其特征在于,从所述序列到序列语音识别模型(200)输出的所述中间转录(115)在所述书面域中,并将所述数字序列表示为数字单词;以及用于训练所述神经校正器/去规范器(300)的所述训练样本集中的每个训练样本的所述语音识别假设在所述书面域中。5.根据权利要求4所述的方法(500),其特征在于,处理所述中间转录(115)包括将所述神经校正器/去规范器(300)用作书面域校正模型,所述书面域校正模型被配置为:接收从所述序列到序列语音识别模型(200)输出的所述书面域中的所述中间转录(115)作为输入;以及生成作为校正转录的所述最终转录(120)作为输出,所述校正转录将初始转录中的数字单词替换为所述书面域中的所述数字序列的相应数字表示。6.根据权利要求5所述的方法(500),其特征在于,所述书面域校正模型被配置为:通过仅处理包括所述数字单词的所述中间转录(115)的第一部分而不处理包括非数字单词的所述中间转录(115)的剩余第二部分,来生成作为所述校正转录的所述最终转录(120)作为输出。7.根据权利要求6所述的方法(500),其特征在于,所述书面域校正模型被配置为将所
述非数字单词从所述中间转录(115)复制到所述校正转录中。8.根据权利要求1

7中任一项所述的方法(500),其特征在于,所述数据处理硬件(610)或与所述数据处理硬件(610)通信的远程计算设备(201)被配置为通过以下方式来训练所述序列到序列语音识别模型(200)和所述神经校正器/去规范器(300):获得多个训练话语集合(402),每个训练话语集合(402)与不同的相应数字类别相关联并且包括多个相应的转录模板(404),每个转录模板(404)包括所述书面域中的相应默认短语(406)和数字槽(408);对于每个转录模板(404):生成数值的一个或多个合成语音表示(416);对于所生成的所述数值的一个或多个合成语音表示(416)中的每一个,将数值的相应合成语音表示(416)注入到相应转录模板(404)的槽(408)中,以生成唯一的训练话语(106),所述唯一的训练话语(106)包括用于所述相应转录模板(404)的所述默认短语(406)的音频表示和所述数值的相应合成语音表示(416);以及在为每个训练话语集合(402)的所述多个转录模板(404)中的每一个生成的、所述数值的一个或多个合成语音表示(416)中的每一个而生成的唯一的训练话语(422)上训练所述序列到序列语音识别模型(200)。9.根据权利要求8所述的方法(500),其特征在于,对应于所述转录模板(404)中的至少一个的所述默认短语(406)的所述音频表示包括匿名非合成语音。10.根据权利要求8或9所述的方法(500),其特征在于,对应于所述转录模板(404)中的至少一个的所述默认短语(406)的所述音频表示包括所述默认短语的合成语音表示。11.根据权利要求8

10中任一项所述的方法(500),其特征在于,所述唯一的训练话语(422)的书面域转录包括用于训练所述神经校正器/去规范器(300)的所述训练样本集中的相应一个训练样本的所述基础真值转录(424)。12.根据权利要求1

11中任一项所述的方法(500),其特征在于,所述序列到序列语音识别模型(200)包括递归神经网络转换器(RNN

T)端到端解码器模型。13.根据权利要求1

12中任一项所述的方法(500),其特征在于,所述神经校正器/去规范器(300)包含:编码器部分(310),被配置为生成从所述序列到序列语音识别模型(200)输出的所述中间转录(115)的编码表示;标记器部分(320),被配置为将所述中间转录(115)中的每个非数字单词标记为无意义的,并且将所述中间转录(115)中的每个数字单词标记为有意义的;和注意力/解码器部分(330),被配置为处理来自所述标记器部分的有意义的标记,以获得在所述书面域中的所述话语(106)的所述数字序列的数字表示。14.根据权利要求13所述的方法(500),其特征在于,所述编码器部分(310)包括双向递归神经网络(BiRNN);所述标记器部分(320)包括递归神经网络(RNN);和所述注意力/解码器部分(330)包括BiRNN。15.一种系统(600),其特征在于,所述系统包括:数据处理硬件(610);...

【专利技术属性】
技术研发人员:查尔斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1