深度学习训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:20797839 阅读:26 留言:0更新日期:2019-04-06 11:27
本发明专利技术实施例提供一种深度学习训练方法、装置、设备及可读存储介质。本发明专利技术实施例的方法通过将源域数训据集拆分成多个源域数据组,在对源域模型的每一轮模型训练中,均从训练数据组中随机抽取的多个小样本训练集,作为本轮的训练数据进行模型训练,得到各小样本训练集的模型参数;根据各小样本训练集的模型参数更新源域模型的初始参数,根据更新后的初始参数能得到本轮训练后的新的模型;由于每轮模型训练均重新从训练数据组中随机抽取的多个小样本训练集,作为新的训练数据,使得每轮模型训练所使用的训练数据均不相同,这样可以起到丰富训练数据的效果,即使在源域训练数据集中的样本数据较小的情况下,也可以实现训练出效果很好的模型。

Deep Learning Training Method, Device, Equipment and Readable Storage Media

The embodiment of the present invention provides a deep learning training method, device, device and readable storage medium. The method of the embodiment of the present invention divides the training data set of the source domain into several source domain data sets. In each round of model training of the source domain model, a plurality of small sample training sets are randomly extracted from the training data set, which are used as the training data of the current round for model training, and the model parameters of each small sample training set are obtained. The source domain is updated according to the model parameters of each small sample training set. According to the initial parameters of the model, the new model after the training can be obtained. Because each round of model training is randomly extracted from the training data set of multiple small samples, as new training data, the training data used in each round of model training are different, which can enrich the training data, even in the source domain. When the sample data in the training data set is small, the model with good training effect can also be realized.

【技术实现步骤摘要】
深度学习训练方法、装置、设备及可读存储介质
本专利技术实施例涉及深度学习
,尤其涉及一种深度学习训练方法、装置、设备及可读存储介质。
技术介绍
深度学习(deeplearning)已经广泛应用于各个领域,已经可以像人类一样识别与认知,甚至解决各类问题的能力在某些方面已超越了人类。深度学习要求大体量训练数据,还需要有足够量包括标注数据的标签样本作为数据基础进行深度模型的训练。但在某些领域,由于样本采集困难、标签分析代价大等原因,通常标签样本很难获取,标签样本缺乏,小样本问题严重,导致训练出的深度模型效果差。
技术实现思路
本专利技术实施例提供一种深度学习训练方法、装置、设备及可读存储介质,用以解决在某些领域,由于样本采集困难、标签分析代价大等原因,通常标签样本很难获取,标签样本缺乏,小样本问题严重,导致训练出的深度模型效果差的问题。本专利技术实施例的一个方面是提供一种深度学习训练方法,包括:对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,得到各小样本训练集的模型参数;根据所述各小样本训练集的模型参数,更新源域模型的初始参数;验证根据更新后的初始参数得到的模型是否符合预置条件;若不符合,则跳转执行对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练的步骤;若符合,则将更新后的初始参数确定为所述源域模型的最终参数得到源域模型。本专利技术实施例的另一个方面是提供一种深度学习训练装置,包括:训练模块,用于对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,得到各小样本训练集的模型参数;参数更新模块,用于根据所述各小样本训练集的模型参数,更新源域模型的初始参数;验证模块,用于:验证根据更新后的初始参数得到的模型是否符合预置条件;若不符合,则跳转执行对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练的步骤;若符合,则将更新后的初始参数确定为所述源域模型的最终参数得到源域模型。本专利技术实施例的另一个方面是提供一种深度学习训练设备,其特征在于,包括:存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述所述的方法。本专利技术实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。本专利技术实施例提供的深度学习训练方法、装置、设备及可读存储介质,通过将源域数训据集拆分成多个源域数据组,在对源域模型的每一轮模型训练中,均从训练数据组中随机抽取的多个小样本训练集,作为本轮的训练数据进行模型训练,得到本轮的各小样本训练集的模型参数;并根据各小样本训练集的模型参数,更新源域模型的初始参数,根据更新后的初始参数能得到本轮训练后的新的模型;由于每轮模型训练均重新从训练数据组中随机抽取的多个小样本训练集,作为新的训练数据,使得每轮模型训练所使用的训练数据均不相同,这样可以起到丰富训练数据的效果,即使在源域训练数据集中的样本数据较小的情况下,也可以实现训练出效果很好的模型。附图说明图1为本专利技术实施例一提供的深度学习训练方法流程图;图2为本专利技术实施例一提供的深度学习训练方法整体流程示意图;图3为本专利技术实施例二提供的深度学习训练方法流程图;图4为本专利技术实施例二提供的一种二层循环的流程示意图;图5为本专利技术实施例三提供的深度学习训练装置的结构示意图;图6为本专利技术实施例五提供的深度学习训练设备的结构示意图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术实施例的一些方面相一致的装置和方法的例子。首先对本专利技术实施例所涉及的名词进行解释:迁移学习:给的源域数据和源域任务,目标域数据和目标域任务,迁移学习就是研究如何利用源域数据和源域任务来帮助改善目标域数据的学习任务效果。一般源域数据与目标域数据不同,且源域任务和目标域任务不同。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。实施例一图1为本专利技术实施例一提供的深度学习训练方法流程图;图2为本专利技术实施例一提供的深度学习训练方法整体流程示意图。本专利技术实施例针对在某些领域,由于样本采集困难、标签分析代价大等原因,通常标签样本很难获取,标签样本缺乏,小样本问题严重,导致训练出的深度模型效果差的问题,提供了深度学习训练方法。如图1和图2所示,该方法具体步骤如下:步骤S101、对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,得到各小样本训练集的模型参数。首先获取源域训练数据集,并对源域训练数据集进行数据预处理,得到预处理后的源域训练数据集。为了适合带有学习策略的深度学习训练,对预处理以后的源域训练数据集进行分组处理,将源域数训据集拆分成多个源域数据组。本实施例中,在对源域模型的每一轮迭代训练中,均从训练数据组中随机抽取的多个小样本训练集,作为本轮的训练数据进行模型训练,得到本轮的各小样本训练集的模型参数。由于每轮模型训练均重新从训练数据组中随机抽取的多个小样本训练集,作为新的训练数据,使得每轮模型训练所使用的训练数据均不相同。步骤S102、根据各小样本训练集的模型参数,更新源域模型的初始参数。在得到各小样本训练集的模型参数之后,根据预设的学习策略,生成本次迭代训练的最终模型参数。其中,预设的学习策略具体包括如何根据本次更新前源域模型的初始参数,以及各小样本训练集的模型参数,更新源域模型的初始参数。预设的学习策略采用了小样本多组联合训练方法,采用多个小样本训练集分别独立完成对源域模型的训练,得到多个训练后的源域模型,从而得到各小样本训练集的模型参数;综合得到的多组模型参数,更新源域模型的初始参数,使得训练后的源域模型具有更好的泛化能力。其中,模型参数是指源域模型中需要训练的一组参数。例如,模型参数可以模型中的权重参数等等。步骤S103、验证根据更新后的初始参数得到的模型是否符合预置条件。在更新更新源域模型的初始参数之后,通过验证根据更新后的初始参数得到的模型是否符合预置条件,来验证是否可以结束模型训练。本实施例中,验证根据更新后的初始参数得到的模型是否符合预置条件至少包括:验证根据更新后的初始参数得到的模型是否收敛。只有在根据更新后的初始参数得到的模型收敛时,才有可能将更新后的初始参数作为最终参数。如果根据更新后的初始参数得到的模型不收敛,则不会将更新后的初始参数作为最终参数。若该步骤中验证结果为不符合预置条件,则开启新一轮的模型训练,跳转执行步骤S101,对从训练数据组中随机抽取的多个小样本本文档来自技高网...

【技术保护点】
1.一种深度学习模型训练方法,其特征在于,包括:对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,得到各小样本训练集的模型参数;根据所述各小样本训练集的模型参数,更新源域模型的初始参数;验证根据更新后的初始参数得到的模型是否符合预置条件;若不符合,则跳转执行对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练的步骤;若符合,则将更新后的初始参数确定为所述源域模型的最终参数得到源域模型。

【技术特征摘要】
1.一种深度学习模型训练方法,其特征在于,包括:对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,得到各小样本训练集的模型参数;根据所述各小样本训练集的模型参数,更新源域模型的初始参数;验证根据更新后的初始参数得到的模型是否符合预置条件;若不符合,则跳转执行对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练的步骤;若符合,则将更新后的初始参数确定为所述源域模型的最终参数得到源域模型。2.根据权利要求1所述的方法,其特征在于,所述对从训练数据组中随机抽取的多个小样本训练集分别进行模型训练,包括:对源域训练数据集进行分组处理,得到多个训练数据组;重复从所述多个训练数据组中分别抽取预设数量的训练数据的过程,得到多个小样本训练集。3.根据权利要求2所述的方法,其特征在于,所述对源域训练数据集进行分组处理,得到多个训练数据组,包括:若所述源域模型对应的学习任务为分类学习任务,则将所述源域训练数据集分成的训练数据组的数量等于所述学习任务的类别数量;若所述源域模型对应的学习任务为回归学习任务,则将所述源域训练数据集分成的训练数据组的数量等于所述学习任务的可变参数的数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述各小样本训练集的模型参数,更新源域模型的初始参数,包括:根据所述各小样本训练集的模型参数,采用如下公式,更新源域模型的初始参数:其中,θf表示本次更新后源域模型的初始参数,θ0表示本次更新前源域模型的初始参数,表示所述各小样本训练集的模型参数的平均值,α表示衰变系数。5.根据权利要求4所述的方法,其特征在于,所述衰变系数为:其中,α0为衰变系数的预设初始值,N为预设的源域模型初始参数更新的总次数,j为当前源域模型的初始参数的更新次数,j为正整数。6.根据权利要求1所述的方法,其特征在于,所述验证根据更新后的初始参数得到的模型是否符合预置条件,包括:采用验证集对根据更新后的初始...

【专利技术属性】
技术研发人员:平安何光宇王希
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1