用于数据增强的方法和装置制造方法及图纸

技术编号:21606824 阅读:25 留言:0更新日期:2019-07-13 18:40
本发明专利技术涉及一种用于数据增强的方法和装置,该方法包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。该方法和装置能够有效确保数据增强的良好效果。

Methods and devices for data enhancement

【技术实现步骤摘要】
用于数据增强的方法和装置
本专利技术涉及机器学习领域,尤其涉及用于数据增强的方法和装置。
技术介绍
数据增强是机器学习领域中的用于增加有效训练样本的数量的技术,其目的在于提高机器学习模型的分类能力。目前,在给定训练样本之后,工程师通常根据自己的经验选择数据增强模型来对该训练样本进行数据增强处理。有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有很大的提升,这表明数据增强的效果良好。但是,有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有较低的提升甚至负提升,这表明数据增强的效果很差。因此,现有的数据增强处理并不能总是确保数据增强的良好效果。
技术实现思路
本专利技术的实施例提供用于数据增强的方法和装置,其能够有效确保数据增强的良好效果。按照本专利技术的实施例的一种用于数据增强的方法,包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及,利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。按照本专利技术的实施例的一种用于数据增强的装置,包括:计算模块,用于利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;确定模块,用于根据所计算的特征值,确定所述指定训练样本集所属的特征类型;获得模块,用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及,处理模块,用于利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。按照本专利技术的实施例的一种计算设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。按照本专利技术的实施例的一种机器可读介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。本专利技术的实施例的方案根据训练样本的特征值来选择适用于对训练样本进行数据增强处理的数据增强模型,使得所选择的数据增强模型总是与训练样本的特征相匹配的,从而利用被所选择的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力总是具有较大提升,因此,与现有技术相比,本专利技术的实施例的方案能够有效确保数据增强的良好效果。附图说明本专利技术的特征和优点通过以下结合附图的描述将变得更加显而易见。图1示出了按照本专利技术的一个实施例的用于数据增强的方法的总体流程图。图2示出了按照本专利技术的一个实施例的用于数据增强的方法的流程图。图3示出了按照本专利技术的一个实施例的用于数据增强的装置的示意图。图4示出了按照本专利技术的一个实施例的计算设备的示意图。具体实施方式现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。专利技术人经过大量研究发现,不同的训练样本具有不同的特征,如果选用的数据增强模型与训练样本的特征相匹配,则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较大提升,相反,如果选用的数据增强模型与训练样本的特征不匹配,则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较低提升甚至负提升。基于以上发现,本专利技术的实施例的方案根据训练样本的特征来选择用于对训练样本进行数据增强处理的数据增强模型,以有效确保数据增强的良好效果。图1示出了按照本专利技术的一个实施例的用于数据增强的方法的总体流程图。图1所示的方法100可以由任何合适的计算设备来实现,该计算设备可以包括但不局限于服务器、台式计算机、笔记本电脑或平板电脑等。如图1所示,在方框102,对欲进行数据增强处理的训练样本集T中的各个训练样本进行数据预处理。这里,数据预处理可以例如但不局限于包括数据标准化、数据归一化、数据正规化、数据二值化、数据缺值处理、数据离群点处理和/或数据类型中的一种或多种。在方框106,计算训练样本集T的多个子特征值,其中,每一个子特征值是利用训练样本集T中的所有训练样本的其中一个属性的属性值计算的。该多个子特征值的数量与训练样本集T中的训练样本所包括的属性的数量相同。该多个子特征值构成训练样本集T的特征值,其表征训练样本集T的特性。这里,该多个子特征值可以例如但不局限于属于均值、方差、协方差、范围、四分位距、偏度或峰度等。该范围例如可以是训练样本集中的所有训练样本的同一属性的最大属性值与最小属性值之差。均值、方差、协方差、四分位距、偏度和峰度的定义对于本领域技术人员是公知,在此省略对其的详细描述。在方框110,根据训练样本集T的该多个子特征值,对训练样本集T进行聚类处理以将其聚类到已存在的多个簇的其中一个簇中。其中,该多个簇中的每一个簇包括至少一个其它训练样本集,该至少一个其它训练样本集各自也被计算了多个子特征值。在方框114,根据聚类结果,确定训练样本集T所属的特征类型。例如但不局限于,当训练样本集T被聚类到该多个簇中的第一簇时将训练样本集T所属的特征类型确定为第一特征类型,当训练样本集T被聚类到该多个簇中的第二簇时将训练样本集T所属的特征类型确定为第二特征类型,依次类推。在方框118,检查训练样本集T所包括的训练样本是否是文本类型。在方框122,根据训练样本集T所属的特征类型、方框118的检查结果和所存储的用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息IN,获取适用于对训练样本集T进行数据增强处理的数据增强模型O。在本实施例中,数据增强模型包括两种类型:伪标签增强类型和翻译法增强类型。伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理。伪标签增强类型的数据增强模型例如但不局限于包括lightGBM模型、xgboost模型、GBDT(梯度提升树)模型、RNN(循环神经网络)模型、CNN(卷积神经网络)模型、GRU(门循环单元)模型和LSTM(长短期记忆网络)模型,其中,lightGBM模型和xgboost模型属于树模本文档来自技高网...

【技术保护点】
1.一种用于数据增强的方法,包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。

【技术特征摘要】
1.一种用于数据增强的方法,包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。2.如权利要求1所述的方法,其中,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。3.如权利要求2所述的方法,还包括:获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。4.如权利要求1所述的方法,其中所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及所述确定所述指定训练样本集所属的特征类型包括:对所述多个子特征值进行聚类;以及根据聚类结果,判定所述指定训练样本集所属的特征类型。5.如权利要求1-4中的任一项所述的方法,还包括:检查所述指定训练样本集中的各个训练样本是否是文本类型,其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。6.一种用于数据增强的装置,包括:计算模块,用于利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;确定模块,用于根据所计算的特征值,确定所述指定训练样本集...

【专利技术属性】
技术研发人员:易灿袁锦程许辽萨王维强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1