模型训练、置信度确定方法及装置、电子设备、存储介质制造方法及图纸

技术编号：30529569 阅读：12 留言：0更新日期：2021-10-27 23:19

本申请涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质，应用于语音识别技术领域，模型训练方法包括：获取多个第一语音数据以及每个第一语音数据对应的第一文本信息；将从第一语音数据提取到的声学特征输入预先训练完成的编解码模型，得到第一语音数据的深度特征和logits输出结果；根据第一文本信息，构建标签数据；将第一语音数据对应的深度特征输入初始温度系数预测模型，得到温度系数预测值；将温度系数预测值、标签数据和logits输出结果输入第一损失函数，确定损失函数值；根据损失函数值对初始温度系数预测模型的参数进行调整，得到目标温度系数预测模型。本申请可以提高输出置信度的可靠性。请可以提高输出置信度的可靠性。请可以提高输出置信度的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练、置信度确定方法及装置、电子设备、存储介质

[0001]本申请涉及语音识别
，尤其涉及一种模型训练、置信度确定方法及装置、电子设备、存储介质。

技术介绍

[0002]自动语音识别技术已在工业界得到广泛应用，其基本原理是将语音信号通过机器转化为对应的文本信息。由于识别结果的正确与否直接影响用户体验及下游任务，因此，通常可以利用置信度来评价输出结果的可靠性。
[0003]语音识别技术通常基于深度神经网络构建识别模型，并直接采用输出后验概率作为置信度，然而，在实际模型迭代过程中，将使得预测结果的输出概率远大于非预测结果，因而模型对输出结果体现出“overconfident”的现象，具体表现为即使预测结果并非正确结果，模型也将给出较高的置信度。因此，输出概率不能直接较准确地反映模型预测结果的真实可靠性，即置信度的可靠性较低。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种模型训练、置信度确定方法及装置、电子设备、存储介质。
[0005]根据本申请的第一方面，提供了一种温度系数预测模型训练方法，包括：获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息；将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型，得到所述第一语音数据的深度特征和logits输出结果；根据所述第一文本信息，构建标签数据；将所述第一语音数据对应的深度特征输入初始温度系数预测模型，得到温度系数预测值；将所述温度系数预测值、所述标签数据和所述l...

【技术保护点】

【技术特征摘要】
1.一种温度系数预测模型训练方法，其特征在于，所述方法包括：获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息；将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型，得到所述第一语音数据的深度特征和logits输出结果；根据所述第一文本信息，构建标签数据；将所述第一语音数据对应的深度特征输入初始温度系数预测模型，得到温度系数预测值；将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数，确定损失函数值；根据所述损失函数值对所述初始温度系数预测模型的参数进行调整，得到目标温度系数预测模型。2.根据权利要求1所述的方法，其特征在于，所述编解码模型包括：编码单元和解码单元；将从所述第一语音数据提取到的声学特征输入所述编解码模型，得到所述第一语音数据的深度特征，包括：将从所述第一语音数据提取到的声学特征输入所述编解码模型，得到所述编码单元的输出特征，以及所述解码单元的输入特征；根据所述输出特征和所述输入特征，确定所述第一语音数据的深度特征。3.根据权利要求2所述的方法，其特征在于，所述编解码模型为Transformer模型，所述解码单元包括编码
‑
解码注意力层；将从所述第一语音数据提取到的声学特征输入所述Transformer模型，得到所述编码单元的输出特征，以及所述解码单元的输入特征，包括：将从所述第一语音数据提取到的声学特征输入所述Transformer模型，得到所述编码单元的输出特征，以及所述编码
‑
解码注意力层的输入特征。4.根据权利要求3所述的方法，其特征在于，所述根据所述输出特征和所述输入特征，确定所述第一语音数据的深度特征，包括：所述输出特征包括：键值K矩阵和值V矩阵，所述输入特征包括：查询Q矩阵；根据所述K矩阵、所述V矩阵和所述Q矩阵，确定所述第一语音数据的深度特征。5.根据权利要求4所述的方法，其特征在于，所述根据所述K矩阵、所述V矩阵和所述Q矩阵，确定所述第一语音数据的深度特征，包括：根据以下公式：，确定所述第一语音数据的深度特征f；其中，softmax表示归一化指数函数，表示Q矩阵和K矩阵的列数，K
T
表示K矩阵的转置矩阵。6.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本信息，构建标签数据，包括：针对所述第一文本信息中的每个字符，构建所述字符对应的标签数据，其中，所述标签
数据为预设维度的向量，所述预设维度为文本字符序列中文本字符的总数量；如果所述字符为所述文本字符序列中的第N个文本字符，则所述标签数据中第N个元素的值为第一数值，所述标签数据中其他元素的值为第二数值，N为不大于所述预设维度的正整数。7.根据权利要求6所述的方法，其特征在于，如果所述第一数值为1，所述第二数值为0，则训练生成的所述目标温度系数预测模型的输出为温度系数的倒数。8.根据权利要求1所述的方法，其特征在于，所述编解码模型的训练方法包括：获取多个第二语音数据以及每个所述第二语音数据对应的第二文本信息；提取所述第二语音数据中的声学特征，以及所述第二文本信息中的文本特征；将所述声学特征和所述文本特征输入初始模型，得到第二文本预测结果；利用预设的第二损失函数，根据所述第二文本预测结果与所述第二文本信息，确定损失函数值；基于所述损失函数值对所述初始模型进行训练，生成所述编解码模型。9.根据权利要求6所述的方法，其特征在于，所述第一损失函...

【专利技术属性】
技术研发人员：罗海霞，王莎，白锦峰，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人