System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 正则化词分割制造技术_技高网

正则化词分割制造技术

技术编号:40031896 阅读:6 留言:0更新日期:2024-01-16 18:22
一种用于子词分割的方法(600),其包括接收要被分割成多个子词单元(119)的输入词(302)。方法还包括施行子词分割例程(300),以通过访问子词单元的训练词汇集(350)来将输入词分割成多个子词单元,并且通过从在训练词汇集中存在的输入词贪婪地寻找最长子词单元直到到达输入词的末尾为止,从输入词选择多个子词单元。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及正则化词分割


技术介绍

1、自动语音识别(asr)系统已经从其中每个模型具有专用目的的多个模型(例如,声学、发音和语言模型)演变为其中使用单个神经网络将音频波形(即,输入序列)直接映射到输出句子(即,输出序列)的集成模型。这种集成产生了序列到序列的方法,当给定音频特征序列时,该方法生成词或字素的序列。使用集成结构,模型的所有组件可以作为单个端到端(e2e)神经网络被联合训练。这里,e2e模型是指其架构完全由神经网络构建的模型。完全神经网络无需外部和/或手动设计的组件(例如,有限状态换能器、词典或文本标准化模块)即可运行。附加地,在训练e2e模型时,这些模型通常不需要从决策树引导或从单独的系统进行时间对准。


技术实现思路

1、本公开的一个方面提供了一种用于子词分割的计算机实现的方法。该计算机实现的方法当在数据处理硬件上施行时使数据处理硬件执行操作,这些操作包括接收要被分割成多个子词单元的输入词。操作还包括施行子词分割例程以通过以下方式将输入词分割成多个子词单元:访问子词单元的训练词汇集;以及通过从输入词贪婪地寻找在训练词汇集中存在的最长子词单元,直到到达输入词的末尾为止,从输入词中选择多个子词单元。

2、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,选择多个子词单元包括,对于输入词的多个不同位置中的每个对应位置:在对应位置处从输入词识别存在于训练词汇集中的所有可能的候选子词单元;以及,通过将1-p概率指配给最长的可能候选子词单元,并在对应位置处来自输入词的所有可能的候选子词单元之间均匀地划分剩余的p概率,从所有可能的候选子词单元中随机采样。操作可以进一步包括:在施行子词分割例程之前,通过使用预先指定的概率独立地随机删除来自输入词的字符来创建对输入词的拼写错误。

3、在一些示例中,操作进一步包括:在施行子词分割例程之前,通过以下方来式创建对输入词的拼写错误:预先指定用于交换相邻字符对的顺序的概率;以及对于输入词中的每个相邻字符对,基于预先指定的概率交换来自输入词中的相邻字符对中的字符的顺序。这里,输入词中的任何给定字符的顺序被限制为至多一个交换。

4、在一些实施方式中,操作还包括:接收包括表征输入词的话语的音频数据的训练示例;以及,处理音频数据以生成针对输入词的话语的语音识别结果以由语音识别模型输出。这里,语音识别结果包括假设子词单元序列,每个假设子词单元在对应的输出步骤处从语音识别模型输出。在这些实施方式中,操作进一步包括:基于假设子词单元序列和由子词分割例程从输入词中选择的多个子词单元来确定监督损失项;以及,基于监督损失项来更新语音识别模型的参数。在一些示例中,语音识别模型包括具有音频编码器、预测网络和联合网络的循环神经网络换能器(rnn-t)模型架构。这里,音频编码器可以包括多个长短期记忆(lstm)层、多个变换器层或多个适形器层中的一个。在其他示例中,语音识别模型包括具有音频编码器、注意力机制和解码器的听、注意、拼写(las)模型架构。

5、本公开的另一方面提供了一种用于子词分割的系统,其包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,当该指令在数据处理硬件上施行时使数据处理硬件执行操作,这些操作包括接收要被分割成多个子词单元的输入词。操作还包括执行子词分割例程以通过以下方式将输入词分割成多个子词单元:访问子词单元的训练词汇集;以及,通过从输入词贪婪地寻找训练词汇集中存在的最长子词单元,直到到达输入词的末尾为止,从输入词中选择多个子词单元。

6、本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,选择多个子词单元包括,对于输入词的多个不同位置中的每个对应位置:在对应位置处从输入词识别存在于训练词汇集中的所有可能的候选子词单元;以及,通过将1-p概率指配给最长的可能候选子词单元,并在对应位置处来自输入词的所有可能的候选子词单元之间均匀地划分剩余的p概率,从所有可能的候选子词单元中随机采样。操作可以进一步包括:在施行子词分割例程之前,通过使用预先指定的概率独立地随机删除来自输入词的字符来创建对输入词的拼写错误。

7、在一些示例中,操作还包括:在施行子词分割例程之前,通过以下方式创建对输入词的拼写错误:预先指定用于交换相邻字符对的顺序的概率;以及对于输入词中的每个相邻字符对,基于预先指定的概率交换来自输入词中的相邻字符对的字符的顺序。这里,输入词中的任何给定字符的顺序被限制为至多一个交换。

8、在一些实施方式中,操作还包括:接收包括表征输入词的话语的音频数据的训练示例;以及,处理音频数据以生成输入词的话语的语音识别结果以由语音识别模型输出。这里,语音识别结果包括假设子词单元序列,每个假设子词单元在对应的输出步骤处从语音识别模型输出。在这些实施方式中,操作进一步包括:基于假设子词单元序列和由子词分割例程从输入词选择的多个子词单元来确定监督损失项;以及,基于监督损失项来更新语音识别模型的参数。在一些示例中,语音识别模型包括具有音频编码器、预测网络和联合网络的循环神经网络换能器(rnn-t)模型架构。这里,音频编码器可以包括多个长短期记忆(lstm)层、多个变换器层或多个适形器层中的一个。在其他示例中,语音识别模型包括具有音频编码器、注意力机制和解码器的听、注意、拼写(las)模型架构。

9、本公开的一个或多个实施方式的细节在附图和以下描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中变得显而易见。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法(600),所述方法当在数据处理硬件(710)上施行时使所述数据处理硬件(710)执行操作,所述操作包括:

2.根据权利要求1所述的方法(600),其中,选择所述多个子词单元(119)包括,对于所述输入词(302)的多个不同位置中的每个对应位置:

3.根据权利要求1或2所述的方法(600),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过使用预先指定的概率独立地随机删除来自所述输入词(302)的字符来创建对所述输入词(302)的拼写错误。

4.根据权利要求1-3中的任一项所述的方法(600),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过以下操作来创建对所述输入词(302)的拼写错误:

5.根据权利要求4所述的方法(600),其中,所述输入词(302)中的任何给定字符的顺序被限制为至多一个交换。

6.根据权利要求1-5中的任一项所述的方法(600),其中,所述操作进一步包括:

7.根据权利要求6所述的方法(600),其中,所述语音识别模型(200)包括循环神经网络换能器(RNN-T)模型架构,所述RNN-T模型架构包括音频编码器(210)、预测网络(220)和联合网络(230)。

8.根据权利要求7所述的方法(600),其中,所述音频编码器(210)包括多个长短期记忆(LSTM)层。

9.根据权利要求7所述的方法(600),其中,所述音频编码器(210)包括多个变换器层或适形器层。

10.根据权利要求6所述的方法(600),其中,所述语音识别模型(200)包括听、注意、拼写(LAS)模型架构,所述LAS模型架构包括音频编码器(211)、注意力机制(221)和解码器(231)。

11.一种系统(100),包括:

12.根据权利要求11所述的系统(100),其中,选择所述多个子词单元(119)包括,对于所述输入词(302)的多个不同位置中的每个对应位置:

13.根据权利要求11或12所述的系统(100),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过使用预先指定的概率独立地随机删除来自所述输入词(302)的字符来创建对所述输入词(302)的拼写错误。

14.根据权利要求11-13中的任一项所述的系统(100),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过以下操作创建对所述输入词(302)的拼写错误:

15.根据权利要求14所述的系统(100),其中,所述输入词(302)中的任何给定字符的顺序被限制为至多一个交换。

16.根据权利要求11-15中的任一项所述的系统(100),其中,所述操作进一步包括:

17.根据权利要求16所述的系统(100),其中,所述语音识别模型(200)包括循环神经网络换能器(RNN-T)模型架构,所述RNN-T模型架构包括音频编码器(210)、预测网络(220)和联合网络(230)。

18.根据权利要求17所述的系统(100),其中,所述音频编码器(210)包括多个长短期记忆(LSTM)层。

19.根据权利要求17所述的系统(100),其中,所述音频编码器(210)包括多个变换器层或适形器层。

20.根据权利要求16所述的系统(100),其中,所述语音识别模型(200)包括听、注意、拼写(LAS)模型架构,所述LAS模型架构包括音频编码器(211)、注意力机制(221)和解码器(231)。

...

【技术特征摘要】
【国外来华专利技术】

1.一种计算机实现的方法(600),所述方法当在数据处理硬件(710)上施行时使所述数据处理硬件(710)执行操作,所述操作包括:

2.根据权利要求1所述的方法(600),其中,选择所述多个子词单元(119)包括,对于所述输入词(302)的多个不同位置中的每个对应位置:

3.根据权利要求1或2所述的方法(600),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过使用预先指定的概率独立地随机删除来自所述输入词(302)的字符来创建对所述输入词(302)的拼写错误。

4.根据权利要求1-3中的任一项所述的方法(600),其中,所述操作进一步包括,在施行所述子词分割例程(300)之前,通过以下操作来创建对所述输入词(302)的拼写错误:

5.根据权利要求4所述的方法(600),其中,所述输入词(302)中的任何给定字符的顺序被限制为至多一个交换。

6.根据权利要求1-5中的任一项所述的方法(600),其中,所述操作进一步包括:

7.根据权利要求6所述的方法(600),其中,所述语音识别模型(200)包括循环神经网络换能器(rnn-t)模型架构,所述rnn-t模型架构包括音频编码器(210)、预测网络(220)和联合网络(230)。

8.根据权利要求7所述的方法(600),其中,所述音频编码器(210)包括多个长短期记忆(lstm)层。

9.根据权利要求7所述的方法(600),其中,所述音频编码器(210)包括多个变换器层或适形器层。

10.根据权利要求6所述的方法(600),其中,所述语音识别模型(200)包括听、注意、拼写(las)模型架构,所述las模型架构包括音频编码器(211)、注意力机制(221...

【专利技术属性】
技术研发人员:布瓦那·拉马巴德兰海南·徐卡提克·奥德卡西英辉·黄
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1