利用自对准减少流式制造技术

技术编号:39506484 阅读:21 留言:0更新日期:2023-11-24 11:38
一种流式语音识别模型

【技术实现步骤摘要】
【国外来华专利技术】利用自对准减少流式ASR模型延迟


[0001]本公开涉及使用利用自对准的减少流式自动语音识别
(ASR)
模型延迟


技术介绍

[0002]自动语音识别
(ASR)
是采用音频输入并且将其转录为文本的过程,已经极大地成为在移动设备和其他设备中使用的一种重要技术

通常,
ASR
试图通过采用音频输入
(
例如语音话语
)
并且将音频输入转录为文本来提供对人所说内容的准确转录

基于深度神经网络的不断发展,现代
ASR
模型在准确性
(
例如低词错误率
(WER))
和时延
(
例如用户说话与转录之间的延迟
)
两方面不断提高

在当今使用
ASR
系统时,需要
ASR
系统以流式方式解码话语,该流式方式对应于实时或甚至比实时更快,但是也是准确的

然而,在没有任何延迟约束的情况下优化序列似然性的流式端到端模型遭受音频输入和预测文本之间的高延迟,因为这些模型学习通过使用更多未来的场境来改善其预测


技术实现思路

[0003]本公开的一个方面提供了一种流式语音识别模型,包括音频编码器,所述音频编码器被配置为:接收声学帧的序列作为输入;以及在多个时间步中的每个时间步处,生成用于所述声学帧的序列中的对应声学帧的高阶特征表示
>。
所述流式语音识别模型还包括标签编码器,所述标签编码器被配置为接收由最终
softmax
层输出的非空白符号的序列作为输入;以及在所述多个时间步中的每个时间步处生成密集表示

所述流式语音识别模型还包括联合网络,所述联合网络被配置为:接收由所述音频编码器在所述多个时间步中的每个时间步处生成的所述高阶特征表示和由所述标签编码器在所述多个时间步中的每个时间步处生成的所述密集表示作为输入;以及在所述多个时间步中的每个时间步处,生成在对应时间步处的可能语音识别假设上的概率分布

这里,使用自对准来训练所述流式语音识别模型以通过针对每个训练批次,鼓励在每个时间步处的在参考强制对准帧左侧的1个帧的对准路径来减少预测延迟

[0004]本公开的实施方式可以包括下述可选特征中的一个或多个

在一些实施方式中,所述流式语音识别模型可以包括变换器

换能器模型

在一些实施方式中,所述音频编码器可以包括变换器层的堆叠,其中,每个变换器层包括:归一化层;具有相对位置编码的掩蔽多头注意力层;残差连接;堆叠
/
解堆叠层;以及前馈层

这里,所述堆叠
/
解堆叠层可以被配置为改变所述对应变换器层的帧速率,以在训练和推断期间调整所述变换器

换能器模型的处理时间

在一些示例中,所述标签编码器包括变换器层的堆叠,其中,每个变换器层包括:归一化层;具有相对位置编码的掩蔽多头注意力层;残差连接;堆叠
/
解堆叠层;以及前馈层

[0005]可选地,所述标签编码器可以包括二元
(bigram)
嵌入查找解码器模型

在一些示例中,所述流式语音识别模型包括以下之一:递归神经换能器
(RNN

T)
模型;变换器

换能器模型;卷积网络

换能器
(ConvNet

Transducer)
模型;或者
Conformer

换能器模型

使用自
对准来训练所述流式语音识别模型以减少预测延迟可以包括使用自对准而不使用任何外部对准器模型来约束解码图的对准

在一些实施方式中,所述流式语音识别模型在用户设备或服务器上执行

在一些示例中,所述声学帧的序列中的每个声学帧包括维度特征向量

[0006]本公开的另一方面提供一种计算机实现的方法,当在数据处理硬件上执行时,使得所述数据处理硬件执行用于使用自对准来训练流式语音识别模型以减少预测延迟的操作

所述操作包括接收与话语相对应的声学帧的序列作为对所述流式语音识别模型的输入

所述流式语音识别模型被配置为学习所述声学帧的序列与标签令牌的输出序列之间的对准概率

所述操作还包括生成针对所述话语的语音识别结果作为来自所述流式语音识别模型的输出

所述语音识别结果包括使用解码图的标签令牌的输出序列

所述操作还包括基于所述语音识别结果和所述话语的真实转录来生成语音识别模型损失

所述操作还包括从所述解码图获得包括参考强制对准帧的参考强制对准路径;并且从所述解码图中标识从所述参考强制对准路径中的每个参考强制对准帧向左侧的1个帧

所述操作还包括基于从所述参考强制对准路径中的每个强制对准帧向左侧的所标识的帧,对标签转变概率求和;以及基于所述标签转变概率的求和以及所述语音识别模型损失来更新所述流式语音识别模型

[0007]本公开的实施方式可以包括下述可选特征中的一个或多个

在一些实施方式中,所述操作进一步包括由所述流式语音识别模型的音频编码器在多个时间步中的每个时间步处生成用于所述声学帧的序列中的对应声学帧的高阶特征表示;接收由最终
softmax
层输出的非空白符号的序列作为所述流式语音识别模型的标签编码器的输入;由所述标签编码器在所述多个时间步中的每个时间步处生成密集表示;接收由所述音频编码器在所述多个时间步中的每个时间步处生成的所述高阶特征表示和由所述标签编码器在所述多个时间步中的每个时间步处生成的所述密集表示作为对所述流式语音识别模型的联合网络的输入;以及由所述联合网络在所述多个时间步中的每个时间步处生成在对应时间步处的可能语音识别假设上的概率分布

在一些示例中,所述标签编码器包括变换器层的堆叠,其中,每个变换器层包括:归一化层;具有相对位置编码的掩蔽多头注意力层;残差连接;堆叠
/
解堆叠层;以及前馈层

所述标签编码器可以包括二元嵌入查找解码器模型

[0008]在一些实施方式中,所述流式语音识别模型包括变换器

换能器模型

所述音频编码器可以包括变换器层的堆叠,其中,每个变换器层包括:归一化层;具有相对位置编码的掩蔽多头注意力层;残差连接;堆叠
/
解堆叠层;以及前馈层

这里,所述堆叠
/
解堆叠层可以本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种流式语音识别模型
(200)
,包括:音频编码器
(210)
,所述音频编码器被配置为:接收声学帧
(110)
的序列作为输入;以及在多个时间步中的每个时间步处,生成用于所述声学帧
(110)
的序列中的对应声学帧
(110)
的高阶特征表示
(202)
;标签编码器
(220)
,所述标签编码器被配置为:接收由最终
softmax

(240)
输出的非空白符号
(242)
的序列作为输入;以及在所述多个时间步中的每个时间步处生成密集表示
(222)
;以及联合网络
(230)
,所述联合网络被配置为:接收由所述音频编码器
(210)
在所述多个时间步中的每个时间步处生成的所述高阶特征表示
(202)
和由所述标签编码器
(220)
在所述多个时间步中的每个时间步处生成的所述密集表示
(222)
作为输入;以及在所述多个时间步中的每个时间步处,生成在对应时间步处的可能语音识别假设上的概率分布
(232)
,其中,使用自对准来训练所述流式语音识别模型
(200)
,以通过针对每个训练批次鼓励在每个时间步处在参考强制对准帧左侧的1个帧的对准路径来减少预测延迟
。2.
根据权利要求1所述的语音识别模型
(200)
,其中,所述流式语音识别模型
(200)
包括变换器

换能器模型
。3.
根据权利要求2所述的语音识别模型
(200)
,其中,所述音频编码器
(210)
包括变换器层
(400)
的堆叠,每个变换器层
(400)
包括:归一化层
(404)
;具有相对位置编码的掩蔽多头注意力层
(406)
;残差连接
(408)
;堆叠
/
解堆叠层
(410)
;以及前馈层
(412)。4.
根据权利要求3所述的语音识别模型
(200)
,其中,所述堆叠
/
解堆叠层
(410)
被配置为改变对应变换器层
(400)
的帧速率,以在训练和推断期间调整所述变换器

换能器模型的处理时间
。5.
根据权利要求2‑4中的任一项所述的语音识别模型
(200)
,其中,所述标签编码器
(220)
包括变换器层
(400)
的堆叠,每个变换器层
(400)
包括:归一化层
(404)
;具有相对位置编码的掩蔽多头注意力层
(406)
;残差连接
(408)
;堆叠
/
解堆叠层
(410)
;以及前馈层
(412)。6.
根据权利要求1‑5中的任一项所述的语音识别模型
(200)
,其中,所述标签编码器
(220)
包括二元嵌入查找解码器模型
。7.
根据权利要求1‑6中的任一项所述的语音识别模型
(200)
,其中,所述流式语音识别模型
(200)
包括以下之一:
递归神经换能器
(RNN

T)
模型;变换器

换能器模型;卷积网络

换能器
(ConvNet

换能器
)
模型;或者
Conformer

换能器模型
。8.
根据权利要求1‑7中的任一项所述的语音识别模型
(200)
,其中,使用自对准来训练所述流式语音识别模型
(200)
以减少预测延迟包括:使用自对准而不使用任何外部对准器模型来约束解码图
(300)
的对准
。9.
根据权利要求1‑8中的任一项所述的语音识别模型
(200)
,其中,所述流式语音识别模型
(200)
在用户设备
(10)
或服务器
(60)
上执行
。10.
根据权利要求1‑9中的任一项所述的语音识别模型
(200)
,其中,所述声学帧
(110)
的序列中的每个声学帧
(110)
包括维度特征向量
。11.
一种计算机实现的方法
(500)
,所述方法当在数据处理硬件
(12)
上执行时,使得所述数据处理硬件
(12)
执行用于使用自对准来训练流式语音识别模型
(200)
以减少预测延迟的操作,所述操作包括:接收与话语
(106)
相对应的声学帧
(110)
的序列作为所述流式语音识别模型
(200)
的输入,所述流式语音识别模型
(200)
被配置为学习在所述声学帧
(110)
的序列与标签令牌
(242)
的输出序列之间的对准概率;使用解码图
(300)
生成针对所述话语
(106)
的语音识别结果
(120)
作为来自所述流式语音识别模型
(200)
的输出,所述语音识别结果

【专利技术属性】
技术研发人员:金载荣陆涵安舒曼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1