一种模型训练和数据处理方法、装置、设备及介质制造方法及图纸

技术编号:28625344 阅读:13 留言:0更新日期:2021-05-28 16:21
本发明专利技术公开了一种模型训练和数据处理方法、装置、设备及介质。在对深度学习模型的训练过程中,通过预设的执行条件,确定该次迭代的深度学习模型包含的网络层中的第一目标网络层,后续通过该次迭代的深度学习模型包含的每个第一目标网络层,获取任一样本数据的第二属性信息,基于样本数据的第二属性信息以及该样本数据对应的标签,只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可,从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量,缩短反向传播的路径,从而一定程度上避免了梯度消失的现象,并且使得训练的每个网络层所执行的功能趋于相同,训练完成的深度学习模型更具鲁棒性。

【技术实现步骤摘要】
一种模型训练和数据处理方法、装置、设备及介质
本专利技术涉及人工智能
,尤其涉及一种模型训练和数据处理方法、装置、设备及介质。
技术介绍
随着人工智能技术的发展,越来越多的领域采用模型实现一些较为复杂的功能。比如,在直播过程中,一般需要对数量繁杂的直播间主播的内容进行监管,包括图像和声音,对于声音的监管,其主要是对直播中主播说出的语音内容的监管,通过对主播的语音数据进行语音识别,将该语音数据转换成文字内容,基于该文字内容进行甄别,确定是否需要对该主播的直播间进行管制;对于图像的监管,其主要是对正在直播的视频数据的内容进行监管,通过对视频数据包含的视频帧所对应的图像进行内容识别,基于识别出的图像内容,确定是否需要对该主播的直播间进行管制。因此,模型的精度对其所实现的功能有着至关重要的作用。现有技术中,为了提高模型的精度,一般会采用增大模型的深度,即增加模型的网络层,从而实现在一定的样本数据的情况下,尽可能的提高模型的精度。对于该种方法,由于其一般是通过反向传播的方法,调整模型中各参数的参数值的,对于一些超大的模型,即深度较高的模型,比如,超大的神经网络端到端语音识别模型,在反向传播到该模型中接近输入层的各个网络层时,极有可能会出现梯度消失的问题,从而无法对这些网络层进行训练,进而不利于模型的训练。
技术实现思路
本专利技术实施例提供了一种模型训练和数据处理方法、装置、设备及介质,用于解决现有在训练深度较高的模型时出现的梯度消失的现象,不利于模型的训练的问题。本专利技术实施例提供了一种模型训练方法,所述方法包括:对于每次迭代,确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值,并将随机值满足预设的执行条件的网络层确定为第一目标网络层;所述随机值为预设的随机范围内的任一数值;针对样本集中的每个样本数据,通过所述深度学习模型包含的每个所述第一目标网络层,获取该样本数据的第二属性信息;所述每个样本数据均对应有标签,任一样本数据对应的标签用于标识该样本数据的第一属性信息;基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签,对所述深度学习模型包含的每个所述第一目标网络层进行训练。本专利技术实施例提供了一种基于上述所述的方法训练得到的深度学习模型的数据处理方法,所述方法包括:获取待处理数据;通过目标深度学习模型,获取所述待处理数据的目标属性信息;其中,所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。本专利技术实施例提供了一种模型的训练装置,所述装置包括:第一处理单元,用于对于每次迭代,确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值,并将随机值满足预设的执行条件的网络层确定为第一目标网络层;所述随机值为预设的随机范围内的任一数值;第二处理单元,用于针对样本集中的每个样本数据,通过所述深度学习模型包含的每个所述第一目标网络层,获取该样本数据的第二属性信息;所述每个样本数据均对应有标签,任一样本数据对应的标签用于标识该样本数据的第一属性信息;训练单元,用于基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签,对所述深度学习模型包含的每个所述第一目标网络层进行训练。本专利技术实施例提供了一种基于如上述所述的装置训练得到的深度学习模型的数据处理装置,所述装置包括:获取模块,用于获取待处理数据;处理模块,用于通过目标深度学习模型,获取所述待处理数据的目标属性信息;其中,所述目标深度学习模型是基于预先训练完成的深度学习模型确定的。本专利技术实施例提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述模型训练方法的步骤,或实现如上述所述数据处理方法的步骤。本专利技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述模型训练方法的步骤,或实现如上述所述数据处理方法的步骤。在对深度学习模型的训练过程中,通过预设的执行条件,确定该次迭代的深度学习模型包含的网络层中的第一目标网络层,后续通过该次迭代的深度学习模型包含的每个第一目标网络层,获取任一样本数据的第二属性信息,基于样本数据的第二属性信息以及该样本数据对应的标签,只需对该次迭代的深度学习模型包含的每个第一目标网络层进行训练即可,从而减少对该次迭代的深度学习模型中需要进行参数调整的网络层的数量,缩短反向传播的路径,从而一定程度上避免了梯度消失的现象,并且使得训练的每个网络层所执行的功能趋于相同,训练完成的深度学习模型更具鲁棒性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种模型训练过程示意图;图2为本专利技术实施例提供的具体的模型训练流程示意图;图3为本专利技术实施例提供的一种模型结构示意图;图4为本专利技术实施例提供的再一种具体的模型训练流程示意图;图5为本专利技术实施例提供的一种数据处理过程示意图;图6为本专利技术实施例提供的一种模型训练装置的结构示意图;图7为本专利技术实施例提供的一种数据处理装置的结构示意图;图8为本专利技术实施例提供的一种电子设备结构示意图;图9为本专利技术实施例提供的再一种电子设备结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在一种可能的应用场景中,在直播过程中,为了维护良好的网络文明环境,一般需要对主播的语音数据的内容进行监管,而如果要获取主播的语音数据的内容,则可以在采集到主播的语音数据后,将该语音数据输入到预先训练的语音识别模型。通过该语音识别模型,获取该语音数据的语音识别结果。后续基于该语音识别结果,进行相应的处理,确定该语音识别结果中是否包含有预先配置的违规内容。因此,为了保证准确地对语音数据的内容进行监管,需要尽可能的提高语音识别模型的精度。一般情况下,为了提高语音识别模型的精度,可以通过增加语音识别模型的深度,使得语音识别模型可以基于语音数据不同维度上的特征,更准确地确定该语音数据的语音识别结果。但增加语音识别模型的深度的同时,也会增加训练该语音识别模型的难度。因为,在训练语音识别模型的过程中,一般是基于每个语音样本的损失值,通过反向传播的方法,调整模型中各参数的参数值的,但由于语音识别模型的深度较深,导致反向传播到语音识别模型中接近输入层的各个网络层时,会出现梯度消失的问题,从而无法对这些网络层中的参数进行调整,进而获得精度较高本文档来自技高网...

【技术保护点】
1.一种模型的训练方法,其特征在于,所述方法包括:/n对于每次迭代,确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值,并将随机值满足预设的执行条件的网络层确定为第一目标网络层;所述随机值为预设的随机范围内的任一数值;/n针对样本集中的每个样本数据,通过所述深度学习模型包含的每个所述第一目标网络层,获取该样本数据的第二属性信息;所述每个样本数据均对应有标签,任一样本数据对应的标签用于标识该样本数据的第一属性信息;/n基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签,对所述深度学习模型包含的每个所述第一目标网络层进行训练。/n

【技术特征摘要】
1.一种模型的训练方法,其特征在于,所述方法包括:
对于每次迭代,确定该次迭代的深度学习模型所包含的每个网络层分别对应的随机值,并将随机值满足预设的执行条件的网络层确定为第一目标网络层;所述随机值为预设的随机范围内的任一数值;
针对样本集中的每个样本数据,通过所述深度学习模型包含的每个所述第一目标网络层,获取该样本数据的第二属性信息;所述每个样本数据均对应有标签,任一样本数据对应的标签用于标识该样本数据的第一属性信息;
基于所述每个样本数据的第一属性信息以及所述每个样本数据分别对应的标签,对所述深度学习模型包含的每个所述第一目标网络层进行训练。


2.根据权利要求1所述的方法,其特征在于,确定随机值满足预设的执行条件的网络层,包括:
若网络层对应的随机值大于预设的阈值,则确定所述网络层为随机值满足预设的执行条件的网络层。


3.根据权利要求1所述的方法,其特征在于,训练完成深度学习模型之后,所述方法还包括:
根据训练完成的深度学习模型包含的每个网络层,确定满足预设的筛选要求的预设数量的第二目标网络层;
根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层,确定部署在数据处理设备上的目标深度学习模型并发送,以使所述数据处理设备通过所述目标深度学习模型进行数据处理。


4.根据权利要求3所述的方法,其特征在于,所述根据所述深度学习模型中的每个网络层的执行顺序以及每个所述第二目标网络层,确定部署在数据处理设备上的目标深度学习模型,包括:
根据所述深度学习模型中的每个网络层的执行顺序,确定每个所述第二目标网络层对应的目标顺序;
按照目标顺序从前到后的顺序,将每个所述第二目标网络层依次连接;
将连接后的每个所述第二目标网络层所组成的网络确定为所述目标深度学习模型。


5.根据权利要求3所述的方法,其特征在于,所述确定满足预设的筛选要求,包括:
确定按照预设的网络层间隔,从所述深度学习模型包含的每个网络层中筛选出的网络层满足所述筛选要求;和/或
根据所述深度学习模型包含的每个网络层,确定包含有所述预设数量的网络层的组合;通过该组合,分别确定验证集中的每个验证数据的第三属性信息;根据每个所述第三属性信息以及所述每个验证数据分别对应的验证标签,确定所述组合的识别精度;若确定所述识别...

【专利技术属性】
技术研发人员:唐浩雨
申请(专利权)人:百果园技术新加坡有限公司
类型:发明
国别省市:巴西;BR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1