一种数据增强方法及系统技术方案

技术编号:29673043 阅读:22 留言:0更新日期:2021-08-13 21:54
本发明专利技术涉及一种数据增强方法及系统,该方法包括:将采集的终端设备异常数据作为样本数据集;将样本数据集划分为初始数据集和验证数据集;从初始数据集中随机选取设定比例的数据作为临时样本数据集;基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集;分别利用各训练数据集训练回归模型,获得多个临时模型;利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。本发明专利技术通过降低人为干预,提高了数据增强后样本建模的预测精度。

【技术实现步骤摘要】
一种数据增强方法及系统
本专利技术涉及数据增强
,特别是涉及一种数据增强方法及系统。
技术介绍
近年来数据增强技术的研究主要有传统的手工增强和基于深度学习的增强,但是这些方法多集中在分类任务中,而且通常需要有大量的训练数据,难以适用于小样本数据的回归任务。而针对回归任务的数据增强方法主要有基于插值的方法和基于域范围扩展的相关方法,这两种方法都有固定的方法能够产生新的虚拟样本,但是它们对生成的新的虚拟样本缺乏有效的筛选机制,增强的次数以及停止条件都需要人工干预,没有很好的自动控制机制,在某些情况下容易因为不好的虚拟样本的加入而导致最终数据增强效果不佳。目前的方法都需要较多的人为干预,而且人为干预比较困难,因此总体的适用性比较低。
技术实现思路
本专利技术的目的是提供一种数据增强方法及系统,通过降低人为干预,提高了数据增强后样本建模的预测精度。为实现上述目的,本专利技术提供了如下方案:一种数据增强方法,包括:将采集的终端设备异常数据作为样本数据集;将所述样本数据集划分为初始数据集和验证数据集;从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;分别利用各所述训练数据集训练回归模型,获得多个临时模型;利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。可选地,所述损失函数值的计算公式为,其中,表示绝对误差,表示方差,,,表示所述验证数据集中第个样本的预测值,是对应的真实值,为与之间误差的绝对值,为所述验证数据集上所有样本误差绝对值的平均值。本专利技术还公开了一种数据增强系统,包括:样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;数据集划分模块,用于将所述样本数据集划分为初始数据集和验证数据集;临时样本数据集获取模块,用于从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;多个临时虚拟样本数据集获取模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;多个训练数据集获取模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;最小损失函数值确定模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;数据增强数据集确定模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。可选地,所述损失函数值的计算公式为,其中,表示绝对误差,表示方差,,,表示所述验证数据集中第个样本的预测值,是对应的真实值,为与之间误差的绝对值,为所述验证数据集上所有样本误差绝对值的平均值。本专利技术还公开了另一种数据增强方法,包括:将采集的终端设备异常数据作为样本数据集;将所述样本数据集的交叉验证损失值作为目标损失值;将样本数据集划分为初始数据集和验证数据集;从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;分别利用各所述训练数据集训练回归模型,获得多个临时模型;利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;将所述临时数据增强数据集的交叉验证损失值作为临时损失值;判断当前临时损失值是否小于当前目标损失值;若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新所述样本数据集,迭代次数加1;若当前临时损失值大于当前目标损失值,则停止迭代,将当前样本数据集作为数据增强数据集输出;判断所述迭代次数是否大于设定值;若迭代次数小于或等于设定值,则返回步骤“将样本数据集划分为初始数据集和验证数据集”;若迭代次数大于设定值,则停止迭代,将当前样本数据集作为数据增强数据集输出。可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。本专利技术还公开了另一种数据增强系统,其特征在于,包括:样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;初始目标损失值获得模块,用于将所述样本数据集的交叉验证损失值作为目标损失值;数据集划分模块,用于将样本数据集划分为初始数据集和验证数据集;临时样本数据集获得模块,用于从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;多个临时虚拟样本数据集获得模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;多个训练数据集获得模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;最小损失函数值获得模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;临时数据增强数据集获得模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;临时损失值确定模块,用于将所述临时数据增强数据集的交叉验证损失值作为临时损失值;第一判断模块,用于判断当前临时损失值是否小于当前目标损失值;目标本文档来自技高网...

【技术保护点】
1.一种数据增强方法,其特征在于,包括:/n将采集的终端设备异常数据作为样本数据集;/n将所述样本数据集划分为初始数据集和验证数据集;/n从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;/n基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;/n将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;/n分别利用各所述训练数据集训练回归模型,获得多个临时模型;/n利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;/n将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。/n

【技术特征摘要】
1.一种数据增强方法,其特征在于,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集划分为初始数据集和验证数据集;
从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
分别利用各所述训练数据集训练回归模型,获得多个临时模型;
利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。


2.根据权利要求1所述的数据增强方法,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。


3.根据权利要求1所述的数据增强方法,其特征在于,所述损失函数值的计算公式为,其中,表示绝对误差,表示方差,,,表示所述验证数据集中第个样本的预测值,是对应的真实值,为与之间误差的绝对值,为所述验证数据集上所有样本误差绝对值的平均值。


4.一种数据增强系统,其特征在于,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
数据集划分模块,用于将所述样本数据集划分为初始数据集和验证数据集;
临时样本数据集获取模块,用于从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
多个临时虚拟样本数据集获取模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
多个训练数据集获取模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;
最小损失函数值确定模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
数据增强数据集确定模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。


5.根据权利要求4所述的数据增强系统,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。


6.根据权利要求4所述的数据增强系统,其特征在于,所述损失函数值的计算公式为,其中,表示绝对误差,表示方差,,,表示所述验证数据集中第个样本的预测值,是对应的真实值,为与之间误差的绝对值,为所述验证数据集上所有样本误差绝对值的平均值。


7.一种数据增强方法,其特征在于,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集的交叉验证损失值作为目标损失值;
将样本数据集划分为初始数据集和验证数据集;
从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且...

【专利技术属性】
技术研发人员:陈克鹏
申请(专利权)人:北京电信易通信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1