用于高度可配置的多语言语音识别的规范训练制造技术

技术编号:37853909 阅读:35 留言:0更新日期:2023-06-14 22:46
提供了用于构建可配置的多语言模型的实施例。一种计算系统,其获得多个因语言而异的自动语音识别模块和通用自动语音识别模块,该通用自动语音识别模块在包括与多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上被训练。该计算系统然后编译该通用自动语音识别模块与该多个因语言而异的自动语音识别模块以生成可配置的多语言模型,该多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用该多个因语言而异的自动语音识别模块的子集与该通用自动语音识别模块来处理该音频内容。处理该音频内容。处理该音频内容。

【技术实现步骤摘要】
【国外来华专利技术】用于高度可配置的多语言语音识别的规范训练

技术介绍

[0001]自动语音识别(ASR)是一项深度学习任务,其允许机器学习模型识别语音并生成所识别语音的转录。一些ASR模型被训练以识别和转录一种语言。常规方法还集中于训练通用模型以支持多种语言而无需知道用户正在讲哪种语言,或者通过利用从语言标识系统生成的单个预定的语言ID来指导通用ASR模型来改进语音识别。另一解决方案涉及为不同的语言组合构建许多专门的模型。然而,开发成本是巨大的。例如,如果用户希望从十种不同的语言中获得双语和/或三语支持,则用户必须构建45到120个专用模型。
[0002]上述传统ASR模型在语音处理期间表现出计算开销和存储的显著浪费。因此,对于用于语音识别的改进的系统、方法和设备,特别是对于可用于改进多语言应用中的自动语音识别的改进的系统、方法和设备,存在着持续的需求和期望。
[0003]本文所要求保护的主题不限于必须解决传统系统的任何特定缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反,提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算系统,包括:一个或多个处理器;以及存储一个或多个计算机可读指令的一个或多个硬件存储设备,所述一个或多个计算机可读指令能由所述一个或多个处理器执行以使得所述计算系统至少:获得多个因语言而异的自动语音识别模块,所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块已经在不同的因语言而异的训练数据集上进行了训练,并且使得所述多个因语言而异的自动语音识别模块中的每个因语言而异的自动语音识别模块被配置成识别多个不同语言中相应不同语言的语音;获得通用自动语音识别模块,所述通用自动语音识别模块在包括与所述多个不同语言中的每个不同语言相对应的训练数据的多语言训练数据集上进行了训练,并且使得所述通用自动语音识别模块被训练成识别所述多个不同语言中所有不同语言的语音;以及将所述通用自动语音识别模块与所述多个因语言而异的自动语音识别模块编译为可配置的多语言模型,所述多语言模型被配置成响应于标识与音频内容相关联的一个或多个目标语言的用户输入选择性地并动态地利用所述多个因语言而异的自动语音识别模块的子集与所述通用自动语音识别模块来处理所述音频内容。2.如权利要求1所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来:获得与第一语言相对应的独热向量;获得与所述第一语言和一个或多个附加语言相对应的多热向量;以及在所述可配置的多语言模型的训练期间,将所述独热向量和所述多热向量随机呈现给所述可配置的多语言模型。3.如权利要求2所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来:应用没有语言标识数据的独立于语言的训练数据集。4.如权利要求2所述的计算系统,其特征在于,作为编译所述可配置的多语言模型的结果,所述可配置的多语言模型包括:基于所述多热向量和输入声学特征的因语言而异的嵌入、包括所述通用自动语音识别模块和所述多个因语言而异的自动语音识别模块的因语言而异的层、以及响应于可解释为选择一个或多个语言的用户输入来合并一个或多个因语言而异的词汇的因语言而异的词汇表,每个语言与不同的因语言而异的词汇表数据集相对应。5.一种计算系统,包括:一个或多个处理器;以及存储一个或多个计算机可读指令的一个或多个硬件存储设备,所述一个或多个计算机可读指令由所述一个或多个处理器执行以使得所述计算系统至少:获得包括通用自动语音识别模块与多个因语言而异的自动语音识别模块的可配置的多语言模型,所述可配置的多语言模型被训练成动态地选择所述通用自动语音识别模块和来自所述多个因语言而异的自动语音识别模块的因语言而异的自动语音识别模块的子集来生成配置成识别一个或多个用户标识的语言的说出话语的因用户而异的自动语音识别模型;
接收用户输入,所述用户输入包括(i)与所述通用自动语音识别模块相对应的空值,或者(ii)指示一个或多个目标语言的语言标识向量;选择所述通用自动语音识别模块;以及当所述用户输入包括所述语言标识向量时,选择所述因语言而异的自动语音识别模块的子集,所述因语言而异的自动语音识别模块的子集中包括的每个因语言而异的自动语音识别模块被训练以识别所述一个或多个目标语言中不同语言的说出话语。6.如权利要求5所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来:从所述可配置的多语言模型中提取所述通用自动语音识别模块与所述因语言而异的自动语音识别模块的子集;以及在推断时,通过组合所述通用自动语音识别模块与所述因语言而异的自动语音识别模块的子集来生成所述因用户而异的自动语音识别模型。7.如权利要求6所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统来:向用户设备传送所述因用户而异的自动语音识别模型。8.如权利要求5所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统通过以下步骤来编译所述可配置的多语言模型:标识一个或多个模块语言;获得一个或多个因语言而异的自动语音识别模块,所述一个或多个因语言而异的自动语音识别模块的每个因语言而异的自动语音识别模块在不同的因语言而异的训练数据集上进行训练以训练每个因语言而异的自动语音识别模块来识别所述一个或多个模块语言中不同语言的说出话语;获得通用自动语音识别模块,所述通用自动语音识别模块在包括与所述一个或多个模块语言中的每个模块语言相对应的训练数据的多语言训练数据集上进行训练以训练所述通用自动语音识别模块识别所述一个或多个模块语言中任何模块语言的说出话语;以及组合所述通用自动语音识别模块和所述一个或多个因语言而异的自动语音识别模块。9.如权利要求5所述的计算系统,其特征在于,所述语言标识向量包括与单个目标语言相对应的独热向量。10.如权利要求5所述的计算系统,其特征在于,所述语言标识向量包括与多个目标语言相对应的多热向量。11.如权利要求5所述的计算系统,其特征在于,所述一个或多个计算机可读指令进一步可执行以进一步配置所述计算系统通过以下步骤来选择...

【专利技术属性】
技术研发人员:李锦宇周龙孙绁刘树杰
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1