模型训练、置信度确定方法及装置、电子设备、存储介质制造方法及图纸

技术编号:30529569 阅读:12 留言:0更新日期:2021-10-27 23:19
本申请涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质,应用于语音识别技术领域,模型训练方法包括:获取多个第一语音数据以及每个第一语音数据对应的第一文本信息;将从第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到第一语音数据的深度特征和logits输出结果;根据第一文本信息,构建标签数据;将第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。本申请可以提高输出置信度的可靠性。请可以提高输出置信度的可靠性。请可以提高输出置信度的可靠性。

【技术实现步骤摘要】
模型训练、置信度确定方法及装置、电子设备、存储介质


[0001]本申请涉及语音识别
,尤其涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质。

技术介绍

[0002]自动语音识别技术已在工业界得到广泛应用,其基本原理是将语音信号通过机器转化为对应的文本信息。由于识别结果的正确与否直接影响用户体验及下游任务,因此,通常可以利用置信度来评价输出结果的可靠性。
[0003]语音识别技术通常基于深度神经网络构建识别模型,并直接采用输出后验概率作为置信度,然而,在实际模型迭代过程中,将使得预测结果的输出概率远大于非预测结果,因而模型对输出结果体现出“overconfident”的现象,具体表现为即使预测结果并非正确结果,模型也将给出较高的置信度。因此,输出概率不能直接较准确地反映模型预测结果的真实可靠性,即置信度的可靠性较低。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种模型训练、置信度确定方法及装置、电子设备、存储介质。
[0005]根据本申请的第一方面,提供了一种温度系数预测模型训练方法,包括:获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;根据所述第一文本信息,构建标签数据;将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。
[0006]根据本申请的第二方面,提供了一种置信度确定方法,所述方法包括:获取待识别语音数据,并提取所述待识别语音数据的声学特征;将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于第一方面所述的方法训练得到;根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。
[0007]根据本申请的第三方面,提供了一种温度系数预测模型训练装置,包括:第一样本数据获取模块,用于获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;数据处理模块,用于将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;标签数据构建模块,用于根据所述第一文本信息,构建标签数据;温度系数值预测模块,用于将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;第一损失函数值确定模块,用于将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;目标温度系数预测模型训练模块,用于根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。
[0008]根据本申请的第四方面,提供了一种置信度确定装置,所述装置包括:声学特征提取模块,用于获取待识别语音数据,并提取所述待识别语音数据的声学特征;数据处理模块,用于将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;温度系数确定模块,用于将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于第一方面所述的方法训练得到;置信度确定模块,用于根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。
[0009]根据本申请的第五方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行第一方面或第二方面所述的方法。
[0010]根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面所述方法。
[0011]根据本申请的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面所述的方法。
[0012]本申请实施例提供的技术方案与现有技术相比具有如下优点:在预先训练完成的编解码模型的基础上,通过编解码模型提取每个第一语音数据的深度特征,并获取每个第一语音数据的logits输出结果。通过将深度特征输入初始温度系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型,即在编解码模型的基础上,训练一个独立的温度系数预测模型来预测温度系数。由于温度系数是神经网络中的一个超参数,用于调整分类模型最终输出结果的平滑性,因此,通过温度系数对置信度进行校正,可以使校正后的置信度更准确
地描述输出结果,提高输出置信度的可靠性。
附图说明
[0013]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1示出了可以应用本申请实施例的温度系数预测模型训练方法及置信度确定方法的示例性应用环境的系统架构的示意图;图2为本申请实施例中温度系数预测模型训练方法的一种流程图;图3为本申请实施例中温度系数预测模型训练方法的一种示意图;图4为本申请实施例中编解码模型的训练方法的一种流程图;图5为本申请实施例中温度系数预测模型训练方法的又一种流程图;图6为本申请实施例中温度系数预测模型训练方法的又一种流程图;图7为Transformer模型的一种示意图;图8为本申请实施例中置信度确定方法的一种流程图;图9为本申请实施例中置信度确定方法的一种示意图;图10为本申请实施例中温度系数预测模型训练装置的一种结构示意图;图11为本申请实施例中置信度确定装置的一种结构示意图;图12为本申请实施例中电子设备的一种结构示意图。
具体实施方式
[0016]下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
[0017]应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种温度系数预测模型训练方法,其特征在于,所述方法包括:获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;根据所述第一文本信息,构建标签数据;将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。2.根据权利要求1所述的方法,其特征在于,所述编解码模型包括:编码单元和解码单元;将从所述第一语音数据提取到的声学特征输入所述编解码模型,得到所述第一语音数据的深度特征,包括:将从所述第一语音数据提取到的声学特征输入所述编解码模型,得到所述编码单元的输出特征,以及所述解码单元的输入特征;根据所述输出特征和所述输入特征,确定所述第一语音数据的深度特征。3.根据权利要求2所述的方法 ,其特征在于,所述编解码模型为Transformer模型,所述解码单元包括编码

解码注意力层;将从所述第一语音数据提取到的声学特征输入所述Transformer模型,得到所述编码单元的输出特征,以及所述解码单元的输入特征,包括:将从所述第一语音数据提取到的声学特征输入所述Transformer模型,得到所述编码单元的输出特征,以及所述编码

解码注意力层的输入特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述输出特征和所述输入特征,确定所述第一语音数据的深度特征,包括:所述输出特征包括:键值K矩阵和值V矩阵,所述输入特征包括:查询Q矩阵;根据所述K矩阵、所述V矩阵和所述Q矩阵,确定所述第一语音数据的深度特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述K矩阵、所述V矩阵和所述Q矩阵,确定所述第一语音数据的深度特征,包括:根据以下公式:,确定所述第一语音数据的深度特征f;其中,softmax表示归一化指数函数,表示Q矩阵和K矩阵的列数,K
T
表示K矩阵的转置矩阵。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息,构建标签数据,包括:针对所述第一文本信息中的每个字符,构建所述字符对应的标签数据,其中,所述标签
数据为预设维度的向量,所述预设维度为文本字符序列中文本字符的总数量;如果所述字符为所述文本字符序列中的第N个文本字符,则所述标签数据中第N个元素的值为第一数值,所述标签数据中其他元素的值为第二数值,N为不大于所述预设维度的正整数。7.根据权利要求6所述的方法,其特征在于,如果所述第一数值为1,所述第二数值为0,则训练生成的所述目标温度系数预测模型的输出为温度系数的倒数。8.根据权利要求1所述的方法,其特征在于,所述编解码模型的训练方法包括:获取多个第二语音数据以及每个所述第二语音数据对应的第二文本信息;提取所述第二语音数据中的声学特征,以及所述第二文本信息中的文本特征;将所述声学特征和所述文本特征输入初始模型,得到第二文本预测结果;利用预设的第二损失函数,根据所述第二文本预测结果与所述第二文本信息,确定损失函数值;基于所述损失函数值对所述初始模型进行训练,生成所述编解码模型。9.根据权利要求6所述的方法,其特征在于,所述第一损失函...

【专利技术属性】
技术研发人员:罗海霞王莎白锦峰
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1