用于罕见词语音辨识的大规模语言模型数据选择制造技术

技术编号:41430805 阅读:27 留言:0更新日期:2024-05-28 20:27
一种训练用于罕见词语音辨识的语言模型(206)的方法(500)包括:获得训练文本样本(422)的集合;以及,获得用于训练语音辨识模型(200)的训练话语(452)的集合。多个训练话语中的每个训练话语包括对应于话语的音频数据(454)和该话语的对应转录(456)。该方法还包括:对训练文本样本的集合应用罕见词过滤,以识别包括未出现在来自训练话语的集合的转录中或出现在来自训练话语的集合的转录中少于阈值次数的词的罕见词训练文本样本(432)的子集。该方法还包括:在来自该训练话语的集合的转录和所识别的罕见词训练文本样本的子集上训练外部语言模型。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及用于罕见词语音辨识的大规模语言模型数据选择


技术介绍

1、自动语音辨识(asr)系统已经从每个模型具有专用目的的多个模型演化到使用单个神经网络将音频波形(即,输入序列)直接映射到输出句子(即,输出序列)的集成模型。这种集成已经产生了序列到序列的方式,当给定音频特征序列时,该方式生成词(或字素)序列。通过集成结构,模型的所有组件可以作为单个端到端(e2e)神经网络被联合训练。这里,端到端模型是指其架构完全由神经网络构建的模型。完全神经网络无需外部和/或手动设计的组件(例如,有限状态传感器、词典或文本规范化模块)即可运行。另外,在训练e2e模型时,这些模型通常不需要从决策树引导或从单独的系统进行时间对齐。这些端到端自动语音辨识(asr)系统取得了巨大进步,在包括单词错误率(wer)在内的几个常见基准测试上超越了传统asr系统。e2e asr模型的架构很大程度上是应用相关的。例如,许多涉及用户交互的应用(诸如语音搜索或设备上听写)要求模型以流式传输方式执行辨识。其他应用(如离线视频字幕)不需要模型进行流式传输,并且能够利用未来的上下文来提高性能。附加本文档来自技高网...

【技术保护点】

1.一种用于训练外部语言模型(206)以辨识语音中的罕见词的计算机实现的方法(500),所述计算机实现的方法(500)当在数据处理硬件(610)上执行时,使得所述数据处理硬件(610))执行包括以下的操作:

2.根据权利要求1所述的计算机实现的方法(500),其中,获得所述训练文本样本(422)的集合包括:

3.根据权利要求1或2所述的计算机实现的方法(500),其中,所述重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

4.根据权利要求1-3中任一项所述的计算机实现的方法(500),其中,所述操作还包括

5....

【技术特征摘要】
【国外来华专利技术】

1.一种用于训练外部语言模型(206)以辨识语音中的罕见词的计算机实现的方法(500),所述计算机实现的方法(500)当在数据处理硬件(610)上执行时,使得所述数据处理硬件(610))执行包括以下的操作:

2.根据权利要求1所述的计算机实现的方法(500),其中,获得所述训练文本样本(422)的集合包括:

3.根据权利要求1或2所述的计算机实现的方法(500),其中,所述重采样函数包括简单功率重采样函数、强制功率重采样函数或软对数重采样函数之一。

4.根据权利要求1-3中任一项所述的计算机实现的方法(500),其中,所述操作还包括:

5.根据权利要求1-4中任一项所述的计算机实现的方法(500),其中,所述外部语言模型(206)包括外部神经语言模型。

6.根据权利要求5所述的计算机实现的方法(500),其中,所述外部神经语言模型包括conformer层或transformer层的堆叠。

7.根据权利要求1-6中任一项所述的计算机实现的方法(500),其中,所述操作还包括将所训练的外部语言模型(206)与所述asr模型(200)集成,所训练的外部语言模型(206)被配置为对由所训练的asr模型(200)预测的可能语音辨识假设上的概率分布重新评分。

8.根据权利要求7所述的计算机实现的方法(500),其中,所述asr模型(200)包括:

9.根据权利要求7或8所述的计算机实现的方法(500),其中,所述解码器(204)还被配置为:

10.根据权利要求7-9中任一项所述的计算机实现的方法(500),其中,所述解码器(204)包括:

11.根据权利要求8-10中任一项所述的计算机实现的方法(500),其中:

12.根据权利要求8-11中任一项所述的计算机实现的方法(500),其中,使用混合自回归换能器分解来训练所述asr模型(200)的所述第一编码器(210)和所述第二编码器(220...

【专利技术属性】
技术研发人员:罗尼·黄塔拉·N·赛纳特
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1