数据增强处理及模型训练方法、装置、电子设备制造方法及图纸

技术编号:38647319 阅读:13 留言:0更新日期:2023-09-02 22:38
本申请提供了一种数据增强处理及模型训练方法、装置、电子设备及存储介质,包括:根据原始数据的数据类型,确定原始数据的至少一个增强处理类别;根据至少一个增强处理类别的至少一个增强处理参数、随机生成的噪音参数,对原始数据执行数据增强处理,获得原始数据的增强数据。本申请通过引入随机的噪音参数,可确保数据增强处理结果的合理性和广泛性,并有助于提高模型训练效果。于提高模型训练效果。于提高模型训练效果。

【技术实现步骤摘要】
数据增强处理及模型训练方法、装置、电子设备


[0001]本申请实施例涉及计算机
,尤其涉及一种数据增强处理及模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]数据增强处理是在深度学习领域中,通过生成原始数据的新数据(或称为增强数据),以进行模型训练的技术手段,其通过在已有数据集的基础上合成新数据,使模型在训练中,能够充分挖掘少量已有数据包含的关键知识,从而提高模型的训练效果。
[0003]传统的数据增强方法,通过确定好的操作序列来执行原始数据的增强处理,以生成新数据,然而,由于操作序列的确定性,这种增强处理所得到的新数据,基本保持了与原有数据之间的相关性。使用这类新数据进行模型训练时,虽可使模型见多识广以充分学习,但并不能对模型缺陷进行有针对性的纠正。
[0004]为了解决传统数据增强结果,对于模型的缺陷问题存在针对性不足的问题,业界提出了对抗训练(Adversarial Training)的方法,其中,处理原始样本以生成对抗样本的过程可看成一种基于对抗的数据增强。对抗训练的目的是使模型的输出不受到输入中加入的合理扰动的影响,可提高模型识别结果的准确性。然而,基于过分扰动所产生的对抗增强样本,会在模型的训练过程中失去意义,甚至起到反作用。因此,需要设计相适应的约束条件,以保证所生成的对抗样本不过于偏离原始数据的分布,然而,目前针对此类的约束条件,通常是基于人为先验知识的假设,无法保证数据扰动的合理性和广泛性。
[0005]有鉴于此,需要一种可保证数据扰动的合理性和广泛性的数据增强处理方案。

技术实现思路

[0006]有鉴于此,本申请实施例提供了一种数据增强处理及模型训练方法、装置、电子设备及存储介质,以致解决现有技术中数据扰动的合理性和广泛性不佳的问题。
[0007]根据本申请实施例的第一方面,提供了一种数据增强处理方法,包括:根据原始数据的数据类型,确定所述原始数据的至少一个增强处理类别;根据所述至少一个增强处理类别的至少一个增强处理参数、随机生成的噪音参数,对所述原始数据执行数据增强处理,获得所述原始数据的增强数据。
[0008]根据本申请实施例的第二方面,提供了一种模型训练方法,包括:获取目标样本和所述目标样本的对抗样本;利用所述目标样本和所述对抗样本,对目标模型执行训练;其中,所述目标样本的对抗样本,是利用第一方面所述的数据增强处理方法获得的。
[0009]根据本申请实施例的第三方面,提供了一种数据增强处理装置,包括:增强分析单元,用于根据原始数据的数据类型,确定所述原始数据的至少一个增强处理类别;增强处理单元,根据所述至少一个增强处理类别的至少一个增强处理参数、随机生成的噪音参数,对所述原始数据执行数据增强处理,获得所述原始数据的增强数据。
[0010]根据本申请实施例的第四方面,提供了一种模型训练装置,包括:获取单元,用于
获取目标样本和所述目标样本的对抗样本;训练单元,用于利用所述目标样本和所述对抗样本,对目标模型执行训练;其中,所述目标样本的对抗样本,是利用第一方面所述的数据增强处理方法获得的,或利用第三方面所述的数据增强处理装置获得的。。
[0011]根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的数据增强处理方法对应的操作,或执行如第二方面所述的模型训练方法对应的操作。
[0012]根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时,可实现如第一方面所述的数据增强处理方法或实现如第二方面所述的模型训练方法。
[0013]借由上述各实施例的技术方案,可根据原始数据的数据类型,自动确定原始数据待执行的数据增强类别,并通过引入随机噪音,可避免产生固定的数据增强处理结果,并可确保数据扰动的合理性和广泛性,借以提高模型的训练效果。
附图说明
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本申请示例性实施例的数据增强处理方法的处理流程图。
[0016]图2为本申请另一示例性实施例的数据增强处理方法的处理流程图。
[0017]图3为本申请示例性实施例的数据增强处理模型的训练方案的应用示意图。
[0018]图4为本申请另一示例性实施例的数据增强处理方法的处理流程图。
[0019]图5为本申请示例性实施例的模型训练方法的处理流程图。
[0020]图6为本申请示例性实施例的数据增强处理装置的结构框图。
[0021]图7为本申请示例性实施例的模型训练装置的结构框图。
[0022]图8为本申请示例性实施例的电子设备的结构框图。
具体实施方式
[0023]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]下面结合各附图对本申请各实施例提供的数据增强处理及模型训练方法、装置、电子设备和存储介质进行详细说明。
[0025]以下将结合各附图详细描述本申请的各实施方案。
[0026]参考图1,其示出了本申请示例性实施例的数据增强处理方法的流程图,其主要包括以下处理步骤:
[0027]步骤S102,根据原始数据的数据类型,确定原始数据的至少一个增强处理类别。
[0028]可选地,原始数据的数据类型可包括图像、声音等类型。
[0029]具体地,可根据原始数据的数据类型,确定原始数据需执行哪些增强处理。例如,若识别原始数据为图像类型,可确定图像数据的增强处理类别包括色彩变换处理、空间变换处理等。
[0030]步骤S104,根据至少一个增强处理类别的至少一个增强处理参数、随机生成的噪音参数,对原始数据执行数据增强处理,获得原始数据的增强数据。
[0031]于本实施例中,可根据预先设定的增强处理类别和增强处理参数之间的对应关系,获得增强处理类别对应的增强处理参数,并根据随机生成的噪音参数和增强处理参数,对原始数据执行数据增强处理,获得原始数据的增强数据。
[0032]可选地,噪音参数可表示为参数向量形式。
[0033]可选地,可利用数据增强处理模型执行步骤S102和步骤S104。
[0034]示例性地,利用数据增强处理模型执行的数据增强处理操本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据增强处理方法,包括:根据原始数据的数据类型,确定所述原始数据的至少一个增强处理类别;根据所述至少一个增强处理类别的至少一个增强处理参数、随机生成的噪音参数,对所述原始数据执行数据增强处理,获得所述原始数据的增强数据。2.根据权利要求1所述的方法,其中,所述方法借由数据增强处理模型执行,且其中,所述数据增强处理模型通过以下方式训练获得:利用待训练的数据增强处理模型对原始样本执行数据增强处理,获得所述原始样本的增强样本;对所述原始样本和所述增强样本执行相似度预测和差异度预测,获得模型损失值,基于所述模型损失值更新所述待训练的数据增强处理模型,并重复执行所述利用待训练的数据增强处理模型对原始样本执行数据增强处理的步骤,直至所述待训练的数据增强处理模型满足预设模型训练结束条件;获得所述数据增强处理模型。3.根据权利要求2所述的方法,其中,所述对所述原始样本和所述增强样本执行相似度预测和差异度预测,获得模型损失值,基于所述模型损失值更新所述待训练的数据增强处理模型,并重复执行所述利用待训练的数据增强处理模型对原始样本执行数据增强处理的步骤,直至所述待训练的数据增强处理模型满足预设模型训练结束条件,包括:对所述原始样本和所述增强样本执行相似度预测,获得所述原始样本和所述增强样本之间的相似度预测结果,并根据所述相似度预测结果,获得相似损失值;当所述相似度预测结果满足所述预设相似度条件时,对所述原始样本和所述增强样本执行差异度预测,获得所述原始样本和所述增强样本之间的差异度预测结果,当所述相似度预测结果不满足所述预设相似度条件时,根据所述相似损失值,更新所述待训练的数据增强处理模型的模型参数,并执行所述利用待训练的数据增强处理模型对原始样本执行数据增强处理的步骤;根据所述差异度预测结果,获得差异损失值,根据所述差异损失值和所述相似损失值,更新所述待训练的数据增强处理模型的模型参数,并执行所述利用待训练的数据增强处理模型对原始样本执行数据增强处理的步骤,直至所述待训练的数据增强处理模型满足所述预设模型训练结束条件。4.根据权利要求3所述的方法,其中,通过以下方式判断所述相似度预测结果满足或不满足所述预设相似度条件,包括:根据所述原始样本的原始标签、所述增强样本的增强标签,获得所述原始样本和所述增强样本之间的相似度参考结果;根据所述相似...

【专利技术属性】
技术研发人员:王汉超张松王彤别晓芳张睿
申请(专利权)人:零束科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1