用于数据增强的方法和装置制造方法及图纸

技术编号：21606824 阅读：25 留言：0更新日期：2019-07-13 18:40

本发明专利技术涉及一种用于数据增强的方法和装置，该方法包括：利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；根据所计算的特征值，确定所述指定训练样本集所属的特征类型；至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。该方法和装置能够有效确保数据增强的良好效果。

Methods and devices for data enhancement

全部详细技术资料下载

【技术实现步骤摘要】
用于数据增强的方法和装置
本专利技术涉及机器学习领域，尤其涉及用于数据增强的方法和装置。
技术介绍
数据增强是机器学习领域中的用于增加有效训练样本的数量的技术，其目的在于提高机器学习模型的分类能力。目前，在给定训练样本之后，工程师通常根据自己的经验选择数据增强模型来对该训练样本进行数据增强处理。有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有很大的提升，这表明数据增强的效果良好。但是，有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有较低的提升甚至负提升，这表明数据增强的效果很差。因此，现有的数据增强处理并不能总是确保数据增强的良好效果。
技术实现思路
本专利技术的实施例提供用于数据增强的方法和装置，其能够有效确保数据增强的良好效果。按照本专利技术的实施例的一种用于数据增强的方法，包括：利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；根据所计算的特征值，确定所述指定训练样本集所属的特征类型；至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；以及，利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。按照本专利技术的实施例的一种用于数据增强的装置，包括：计算模块，用于利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；确定模块，用于根据所计算的特征值，确定所述指定训练样本集所属的特征类型；获得模块，用于至少根据所确定的特征类型...

【技术保护点】
1.一种用于数据增强的方法，包括：利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；根据所计算的特征值，确定所述指定训练样本集所属的特征类型；至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；以及利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。

【技术特征摘要】
1.一种用于数据增强的方法，包括：利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；根据所计算的特征值，确定所述指定训练样本集所属的特征类型；至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息，获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型；以及利用所获得的数据增强模型，对所述指定训练样本集进行数据增强处理。2.如权利要求1所述的方法，其中，所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果，其中，任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比，第二机器学习模型的分类能力的提升程度，所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型，以及，所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型，以及所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。3.如权利要求2所述的方法，还包括：获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果；以及利用所获取的模型提升效果，更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。4.如权利要求1所述的方法，其中所述特征值包括多个子特征值，每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的，以及所述确定所述指定训练样本集所属的特征类型包括：对所述多个子特征值进行聚类；以及根据聚类结果，判定所述指定训练样本集所属的特征类型。5.如权利要求1-4中的任一项所述的方法，还包括：检查所述指定训练样本集中的各个训练样本是否是文本类型，其中，所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。6.一种用于数据增强的装置，包括：计算模块，用于利用指定训练样本集中的各个训练样本所包含的属性值，计算所述指定训练样本集的特征值；确定模块，用于根据所计算的特征值，确定所述指定训练样本集...

【专利技术属性】
技术研发人员：易灿，袁锦程，许辽萨，王维强，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人