语音识别方法、语音识别模型训练方法、设备和介质技术

技术编号:38543696 阅读:9 留言:0更新日期:2023-08-22 20:54
本申请公开了一种语音识别方法、语音识别模型训练方法、设备和介质,该方法包括:获取待识别语音并获取经训练的语音识别模型;语音识别模型包括编码网络和解码网络;在利用编码网络对待识别语音进行编码的各个阶段中,先在目标语音属性下分类得到待识别语音所属的预测属性类别,再基于目标语音属性下预测属性类别进行编码,得到第一编码特征;基于解码网络对第一编码特征进行解码,得到待识别语音的识别文本;其中,语音识别模型至少基于第一损失进行调整,第一损失表征在目标语音属性下,样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异。通过上述方式,本申请能够在提升语音识别准确率的同时,减少成本。减少成本。减少成本。

【技术实现步骤摘要】
语音识别方法、语音识别模型训练方法、设备和介质


[0001]本申请涉及人工智能
,特别是涉及语音识别方法、语音识别模型训练方法、设备和介质。

技术介绍

[0002]自动语音识别,简称语音识别,该技术是指计算机处理器接收到语音信号并经过计算后将其转换为符合人类理解的文字信息。这种技术被广泛应用于手机语音助手、输入法软件、车载导航和各种人工智能穿戴设备等,具有重要的应用价值;专家稀疏网络(Mixture

Of

Experts,MoE)目前是深度学习的一个热门领域,深度学习模型扩张模型参数量的同时,可以维持原始量级的计算量,使模型整体的效果得到大幅度地提升。
[0003]现有的基于专家稀疏网络的语音识别模型,在训练过程中,样本被随机分配给不同的专家进行处理,该过程采用无监督的方式训练,模型开发者无法明确每个专家被分配到的样本的特性,也无法明确需要设置的专家数量;因此,常需要大量的样本和专家进行训练,导致训练成本非常大。进一步地,由于采用无监督训练,样本被随机分配给各专家进行处理,相对于将样本按照属性分给对应属性的专家进行处理,将样本随机分配给各专家进行处理的得到的特征准确率较低,进而造成语音识别模型的语音识别准确率低。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音识别方法、语音识别模型训练方法、设备和介质,能够在提升语音识别准确率的同时,减少成本。
[0005]为解决上述技术问题,本申请第一方面提供了一种语音识别方法,该方法包括:获取待识别语音,并获取经训练的语音识别模型;其中,语音识别模型包括编码网络和解码网络;在利用编码网络对待识别语音进行编码的各个阶段中,先在目标语音属性下分类得到待识别语音所属的预测属性类别,再基于目标语音属性下预测属性类别进行编码,得到第一编码特征;基于解码网络对第一编码特征进行解码,得到待识别语音的识别文本;其中,语音识别模型至少基于第一损失进行调整,第一损失表征在目标语音属性下,样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异。
[0006]为解决上述技术问题,本申请第二方面提供了一种语音识别模型训练方法,该方法包括:获取样本语音;在利用语音识别模型的编码网络对样本语音进行编码的各个阶段中,先在目标语音属性下分类得到样本语音所属的样本属性类别,再基于目标语音属性下样本属性类别进行编码,得到第一样本编码特征;利用语音识别模型的解码网络对第一样本编码特征进行解码,得到样本语音的识别文本;基于样本语音所属的样本属性类别与样本语音标注的预设属性类别之间的差异,确定第一损失,并基于样本语音的识别文本和样本语音标注的预设文本之间的差异,确定识别损失;至少基于第一损失和识别损失,调整语音识别模型的网络参数。
[0007]为解决上述技术问题,本申请第三方面提供了一种电子设备,该设备包括相互耦
接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述第一方面或第二方面提供的方法。
[0008]为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,该程序指令能够被执行以实现上述第一方面或第二方面提供的方法。
[0009]本申请的有益效果是:区别于现有技术的情况,本申请在语音识别模型的训练阶段,至少基于第一损失调整语音识别模型的网络参数,第一损失表征在目标语音属性下,样本语音标注的预设属性类别与被语音识别模型进行识别所得到的样本属性类别之间的差异;即本申请在训练阶段,可先确定目标语音属性和预设属性类别,即模型开发者可明确每个专家被分配到的样本的特性以及需要设置的专家数量,采用有监督的方式,可以采用较少数量的样本和专家训练语音识别模型,以实现减少成本。
[0010]进一步地,利用训练后的语音识别模型的编码网络对待识别语音进行编码的各个阶段中,即可先在目标语音属性下分类得到待识别语音所属的预测属性类别,再基于目标语音属性下预测属性类别进行编码,得到第一编码特征;最后基于训练后的语音识别模型的解码网络对第一编码特征进行解码,得到待识别语音的识别文本。在编码过程中先确定预测属性类别,再基于预测属性类别进行编码,可得到准确率较高的第一编码特征,进而提高语音识别模型的语音识别准确率。
附图说明
[0011]图1是本申请提供的语音识别方法第一实施方式的流程示意图;
[0012]图2是本申请提供的编码网络一实施方式的框架示意图;
[0013]图3是本申请提供的语音识别方法第二实施方式的流程示意图;
[0014]图4是申请提供的编码网络另一实施方式的框架示意图;
[0015]图5是本申请提供的语音识别模型训练方法第一实施方式的流程示意图;
[0016]图6是本申请提供的语音识别模型训练方法第二实施方式的流程示意图;
[0017]图7是本申请提供的语音识别装置一实施方式的框架示意图;
[0018]图8是本申请提供的语音识别模型训练装置一实施方式的框架示意图;
[0019]图9是本申请提供的电子设备一实施方式的框架结构示意图
[0020]图10是本申请提供的计算机可读存储介质一实施方式的框架示意图。
具体实施方式
[0021]下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]需要说明的是,本申请实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0023]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0024]请结合参阅图1,图1是本申请提供的语音识别方法第一实施方式的流程示意图,图2是本申请提供的编码网络一实施方式的框架示意图;该方法包括:
[0025]S11:获取待识别语音,并获取经训练的语音识别模型。
[0026]在一实施方式中,语音识别模型可以包括编码网络和解码网络,如语音识别模型为基于transformer(变换器)或conformer(Convolution

augmented Transformer,卷积增强的变换器)的模型。编码网络可以包括顺序连接的若干第一网络块,若干第一网络块可以与目标语音属性关联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:获取待识别语音,并获取经训练的语音识别模型;其中,所述语音识别模型包括编码网络和解码网络;在利用所述编码网络对所述待识别语音进行编码的各个阶段中,先在目标语音属性下分类得到所述待识别语音所属的预测属性类别,再基于所述目标语音属性下所述预测属性类别进行编码,得到第一编码特征;基于所述解码网络对所述第一编码特征进行解码,得到所述待识别语音的识别文本;其中,所述语音识别模型至少基于第一损失进行调整,所述第一损失表征在所述目标语音属性下,样本语音标注的预设属性类别与被所述语音识别模型进行识别所得到的样本属性类别之间的差异。2.根据权利要求1所述的方法,其特征在于,所述编码网络包括顺序连接且与所述目标语音属性关联的若干第一网络块,分别用于执行编码的不同所述阶段,与所述目标语音属性关联的第一网络块包括用于在所述目标语音属性下进行分类的第一分类层,以及分别与所述目标语音属性下各个预设属性类别一一对应的第一专家层,所述第一专家层分别用于基于所述目标语音属性下所述预测属性类别进行编码。3.根据权利要求2所述的方法,其特征在于,在所述在目标语音属性下分类得到所述待识别语音所属的预测属性类别之前,所述方法还包括:选择当前所述阶段对应的第一网络块,作为第一目标网络块;所述在目标语音属性下分类得到所述待识别语音所属的预测属性类别,包括:利用所述第一目标网络块中的所述第一分类层进行分类,得到所述待识别语音在所述目标语音属性下属于各所述预设属性类别的第一概率;基于所述待识别语音分别属于各所述预设属性类别的第一概率,确定所述待识别语音所属的预测属性类别;所述基于所述目标语音属性下所述预测属性类别进行编码,得到第一编码特征,包括:选择所述第一目标网络块中与所述预测属性类别对应的第一专家层,作为第一目标专家层;利用所述第一目标专家层进行编码,得到所述第一编码特征。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:响应于当前所述阶段对应的第一网络块并非所述编码网络中最后一个所述第一网络块,将当前所述阶段对应的第一网络块所输出的第一编码特征,输入至下一个第一网络块,直至当前所述阶段对应的第一网络块为所述编码网络中最后一个第一网络块为止;选择所述最后一个第一网络块所输出的所述第一编码特征,作为所述编码网络最终输出的第一编码特征。5.根据权利要求3所述的方法,其特征在于,所述第一网络块还包括共享专家层;在所述利用所述第一目标专家层进行编码,得到所述第一编码特征之后,还包括:利用所述共享专家层进行编码,得到第二编码特征;将所述第一编码特征和所述第二编码特征进行融合,得到所述第一目标网络块最终输出的第一编...

【专利技术属性】
技术研发人员:张文辉万根顺田定书高建清潘嘉刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1