模型训练方法技术

技术编号：39661693 阅读：6 留言：0更新日期：2023-12-11 18:24

本发明专利技术提供一种模型训练方法

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、存储介质及电子设备

[0001]本专利技术涉及计算机
，尤其涉及一种模型训练方法
、
装置
、
存储介质及电子设备
。

技术介绍

[0002]目前，语音识别技术在智能手机
、
智能音箱和智能电视等设备上得到了广泛的应用，所谓的语音识别技术是将语音转为文字的技术，常见的语音识别系统通常为基于深度学习的端到端语音识别模型，比如
CTC(Connectionist Temporal Classification
，联结主义时序分类，一种端到端语音识别结构
)、LAS(Listen attend and spell
，一种基于注意力机制的编解码模型
)、RNN
‑
T(Recurrent Neural Network
‑
Transducer
，循环神经网络变化器
)
等等；其中，端到端的语音识别模型在训练过程中需要数万甚至数十万的语音数据
(
包含音频数据和音频数据对应的文本数据
(
即标注文本
))。
在实际场景中，音频数据获取比较容易且成本较低，但是音频数据对应的文本数据需要专业的标注人员进行人工标注来获取，使得获取文本数据的成本较高，从而导致模型训练的成本较高
。
基于此，如何降低模型训练的成本，并提高语音识别模型的准确率成为一个研究热点
。

技术实现思路

>[0003]有鉴于此，本专利技术实施例提供了一种模型训练方法
、
装置
、
存储介质及电子设备，以解决模型训练中音频数据对应文本数据的标注成本较高，从而导致模型训练成本较高等问题；也就是说，本专利技术实施例可降低模型训练的成本，并提高语音识别模型的准确率，即本专利技术实施例可在保证语音识别模型的准确率的前提下，降低模型训练的成本
。
[0004]根据本专利技术的一方面，提供了一种模型训练方法，所述方法包括：
[0005]获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；
[0006]对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；
[0007]调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；
[0008]调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；
[0009]采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别
。
[0010]根据本专利技术的另一方面，提供了一种模型训练装置，所述装置包括：
[0011]获取单元，用于获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；
[0012]处理单元，用于对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；
[0013]所述处理单元，还用于调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；
[0014]所述处理单元，还用于调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；
[0015]所述处理单元，还用于采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别
。
[0016]根据本专利技术的另一方面，提供了一种电子设备，所述电子设备包括处理器
、
以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述所提及的方法
。
[0017]根据本专利技术的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行上述所提及的方法
。
[0018]本专利技术实施例可在获取到训练数据，以及获取到第一语音识别模型后，对训练数据进行特征掩码，得到特征掩码后的训练数据，训练数据包括多个语音特征，特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果，以便于后续通过训练数据和特征掩码后的训练数据，对第一语音识别模型进行模型训练
。
然后，可调用第一语音识别模型，对训练数据进行类别预测，得到多个语音特征中各个语音特征的参考类别标签；并调用第一语音识别模型，对特征掩码后的训练数据进行类别预测，得到至少一个掩码特征中各个掩码特征的预测类别标签；基于此，可采用各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算第一语音识别模型的模型损失值，并按照减小模型损失值的方向，优化第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，第二语音识别模型用于进行语音识别
。
可见，本专利技术实施例可将通过第一语音识别模型预测得到的参考类别标签作为训练数据对应的文本数据
(
即用于获取训练数据的音频数据对应的文本数据
)
，以基于各个参考类别标签进行模型训练，从而无需标注人员进行人工标注，以通过大量无标注的低成本数据对第一语音识别模型进行预训练，可有效降低模型训练的成本，并可提高语音识别模型的准确率，也就是说，可在保证语音识别模型的准确率的前提下，降低模型训练的成本
。
并且，语音识别模型为一个神经网络模型，本专利技术实施例可通过神经网络自聚类的方式生成无监督数据的参考类别标签，使得预测得到的参考类别标签更为准确，以提高语音识别模型的准确率，并可使得语音识别模型收敛的更快更好，从而使得本专利技术实施例可具有良好的鲁棒性和实际应用能力
。
附图说明
[0019]在下面结合附图对于示例性实施例的描述中，本专利技术的更多细节
、
特征和优点被
公开，在附图中：
[0020]图1示出了根据本专利技术示例性实施例的一种模型训练方法的流程示意图；
[0021]图2示出了根据本专利技术示例性实施例的另一种模型训练方法的流程示意图；
[0022]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种模型训练方法，其特征在于，包括：获取训练数据，以及获取第一语音识别模型，所述训练数据包括多个语音特征；对所述训练数据进行特征掩码，得到特征掩码后的训练数据，所述特征掩码后的训练数据包括至少一个掩码特征，且一个掩码特征是相应语音特征被特征掩码后的结果；调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签；调用所述第一语音识别模型，对所述特征掩码后的训练数据进行类别预测，得到所述至少一个掩码特征中各个掩码特征的预测类别标签；采用所述各个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述第一语音识别模型的模型损失值，并按照减小所述模型损失值的方向，优化所述第一语音识别模型中的模型参数，以基于模型优化后的第一语音识别模型，确定第二语音识别模型，所述第二语音识别模型用于进行语音识别
。2.
根据权利要求1所述的方法，其特征在于，所述获取第一语音识别模型，包括：获取初始语音识别模型
、
初始类别预测模型以及初始训练数据，所述初始训练数据包括
H
个语音特征，
H
为正整数；对所述初始训练数据进行特征掩码，得到特征掩码后的初始训练数据，所述特征掩码后的初始训练数据包括
M
个掩码特征，
M
为正整数；调用所述初始类别预测模型，对所述初始训练数据进行类别预测，得到所述
H
个语音特征中每个语音特征的参考类别标签；调用所述初始语音识别模型，对所述特征掩码后的初始训练数据进行类别预测，得到所述
M
个掩码特征中每个掩码特征的预测类别标签；采用所述
M
个掩码特征中每个掩码特征的预测类别标签和相应掩码特征对应语音特征的参考类别标签之间的差异，计算所述初始语音识别模型的初始模型损失值，并按照减小所述初始模型损失值的方向，优化所述初始语音识别模型中的模型参数，以基于模型优化后的初始语音识别模型，获取第一语音识别模型
。3.
根据权利要求2所述的方法，其特征在于，所述方法还包括：按照减小所述初始模型损失值的方向，优化所述初始类别预测模型中的模型参数，得到模型优化后的初始类别预测模型；所述基于模型优化后的初始语音识别模型，获取第一语音识别模型，包括：基于模型优化后的初始语音识别模型和所述模型优化后的初始类别预测模型，获取第一语音识别模型
。4.
根据权利要求1‑3任一项所述的方法，其特征在于，所述调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的参考类别标签，包括：调用所述第一语音识别模型，对所述训练数据进行类别预测，得到所述多个语音特征中各个语音特征的类别概率，一个语音特征的类别概率包括相应语音特征属于多个类别中每个类别的概率值；分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率；
基于所述各个语音特征的平滑类别概率，分别确定所述各个语音特征的参考类别标签
。5.
根据权利要求4所述的方法，其特征在于，所述分别对所述各个语音特征的类别概率进行平滑处理，得到所述各个语音特征的平滑类别概率，包括：针对所述多个语音特征中的任一语音特征，从所述多个语音特征中确定出所述任一语音特征的
Q
个相邻语音特征，所述
Q
个相邻语音特征中任一相邻语音特征与所述任一语音特征之间的距离，小于所述多个语音特征中除所述
Q
...

【专利技术属性】
技术研发人员：单长浩，孙思宁，杨青，
申请(专利权)人：度小满科技，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人