一种模型训练和数据处理方法、装置、设备及介质制造方法及图纸

技术编号：28625344 阅读：13 留言：0更新日期：2021-05-28 16:21

本发明专利技术公开了一种模型训练和数据处理方法、装置、设备及介质。在对深度学习模型的训练过程中，通过预设的执行条件，确定该次迭代的深度学习模型包含的网络层中的第一目标网络层，后续通过该次迭代的深度学习模型包含的每个第一目标网络层，获取任一样本数据的第二属性信息，基于样本数据的第二属性信息以及该样本数据对应的标签，只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可，从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量，缩短反向传播的路径，从而一定程度上避免了梯度消失的现象，并且使得训练的每个网络层所执行的功能趋于相同，训练完成的深度学习模型更具鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练和数据处理方法、装置、设备及介质
本专利技术涉及人工智能
，尤其涉及一种模型训练和数据处理方法、装置、设备及介质。
技术介绍
随着人工智能技术的发展，越来越多的领域采用模型实现一些较为复杂的功能。比如，在直播过程中，一般需要对数量繁杂的直播间主播的内容进行监管，包括图像和声音，对于声音的监管，其主要是对直播中主播说出的语音内容的监管，通过对主播的语音数据进行语音识别，将该语音数据转换成文字内容，基于该文字内容进行甄别，确定是否需要对该主播的直播间进行管制；对于图像的监管，其主要是对正在直播的视频数据的内容进行监管，通过对视频数据包含的视频帧所对应的图像进行内容识别，基于识别出的图像内容，确定是否需要对该主播的直播间进行管制。因此，模型的精度对其所实现的功能有着至关重要的作用。现有技术中，为了提高模型的精度，一般会采用增大模型的深度，即增加模型的网络层，从而实现在一定的样本数据的情况下，尽可能的提高模型的精度。对于该种方法，由于其一般是通过反向传播的方法，调整模型中各参数的参数值的，对于一些超大的模型，即深度较高的模型，比如，超大的神经网络端到端语音识别模型，在反向传播到该模型中接近输入层的各个网络层时，极有可能会出现梯度消失的问题，从而无法对这些网络层进行训练，进而不利于模型的训练。
技术实现思路
本专利技术实施例提供了一种模型训练和数据处理方法、装置、设备及介质，用于解决现有在训练深度较高的模型时出现的梯度消失的现象，不利于模型的训练的问题。本专利技术实施例提供...

【技术保护点】
1.一种模型的训练方法，其特征在于，所述方法包括：/n对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值；/n针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息；/n基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。/n

【技术特征摘要】
1.一种模型的训练方法，其特征在于，所述方法包括：
对于每次迭代，确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值，并将随机值满足预设的执行条件的网络层确定为第一目标网络层；所述随机值为预设的随机范围内的任一数值；
针对样本集中的每个样本数据，通过所述深度学习模型包含的每个所述第一目标网络层，获取该样本数据的第二属性信息；所述每个样本数据均对应有标签，任一样本数据对应的标签用于标识该样本数据的第一属性信息；
基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签，对所述深度学习模型包含的每个所述第一目标网络层进行训练。

2.根据权利要求1所述的方法，其特征在于，确定随机值满足预设的执行条件的网络层，包括：
若网络层对应的随机值大于预设的阈值，则确定所述网络层为随机值满足预设的执行条件的网络层。

3.根据权利要求1所述的方法，其特征在于，训练完成深度学习模型之后，所述方法还包括：
根据训练完成的深度学习模型包含的每个网络层，确定满足预设的筛选要求的预设数量的第二目标网络层；
根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型并发送，以使所述数据处理设备通过所述目标深度学习模型进行数据处理。

4.根据权利要求3所述的方法，其特征在于，所述根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层，确定部署在数据处理设备上的目标深度学习模型，包括：
根据所述深度学习模型中的每个网络层的执行顺序，确定每个所述第二目标网络层对应的目标顺序；
按照目标顺序从前到后的顺序，将每个所述第二目标网络层依次连接；
将连接后的每个所述第二目标网络层所组成的网络确定为所述目标深度学习模型。

5.根据权利要求3所述的方法，其特征在于，所述确定满足预设的筛选要求，包括：
确定按照预设的网络层间隔，从所述深度学习模型包含的每个网络层中筛选出的网络层满足所述筛选要求；和/或
根据所述深度学习模型包含的每个网络层，确定包含有所述预设数量的网络层的组合；通过该组合，分别确定验证集中的每个验证数据的第三属性信息；根据每个所述第三属性信息以及所述每个验证数据分别对应的验证标签，确定所述组合的识别精度；若确定所述识别...

【专利技术属性】
技术研发人员：唐浩雨，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：巴西;BR

全部详细技术资料下载我是这个专利的主人