一种生态数值数据的增广方法技术

技术编号:38212396 阅读:11 留言:0更新日期:2023-07-25 11:20
本发明专利技术涉及一种生态数值数据的增广方法,属于深度学习数据增广领域。该方法具体包括:S1:对生态数值数据集进行预处理;S2:数值数据增广:搭建生成式自编码网络模型,并将预处理后的数据集输入生成式自编码网络模型训练;然后利用训练好的生成式自编码网络模型进行数据增广;S3:数值数据集质量检测:首先采用距离度量来判断增广数据集的质量,其次是信息度量,即比较增广数据集与原始数据集的关联信息是否一致。本发明专利技术可以增加数据集的多样性和质量,这两个性能的改善可以有效增加模型的训练能力,提高了模型的泛化能力。提高了模型的泛化能力。提高了模型的泛化能力。

【技术实现步骤摘要】
一种生态数值数据的增广方法


[0001]本专利技术属于深度学习数据增广领域,涉及一种生态数值数据的增广方法。

技术介绍

[0002]一个高质量的数据集对于深度学习和机器学习是很重要,然而在许多领域都存在着获取数据困难的情况。如在生态领域,由于各种农作物种植周期较长;想要短时间获取到大量的数据集需要付出极大的人力与物力。因此小数据集问题在生态领域频繁出现。而小数据集在训练模型时容易发生过拟合,导致在测试集上模型泛化能力差。
[0003]目前,Wee Sun Lee等人使用生成对抗网络(GAN)处理不平衡数据集问题。M.H.Aung,El

Sayed A均采用了过采样SMOT算法解决数据集不平衡问题。现有的增广技术存在以下不足:第一,未对增广后的数据集进行质量检测,直接使用增广数据集进行训练是不可靠的。第二,某些增广方法在扩充数据集时,只是增加了数据量,没有增加数据的多样性。以往使用生成对抗网络对数值数据进行增广,虽然能够增加数据量,并且通过对数据增广后,其模型的泛化能力也得到了提升,但是在增广流程中出现了严重漏洞,也就是没有对增广后的数据进行质量检测。增广后的数据集是否有效还是未知的,如果直接使用增广数据集是不严谨的。过采样算法虽然能够提高数据集的样本量,但是并不能提高数据集的多样性,使用该方法不能根本性解决模型过拟合的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种生态数值数据的增广方法,用于解决在生态领域因小数据集训练机器学习和深度学习时容易导致模型过拟合的问题。本专利技术通过搭建生成式自编码网络获取大量高质量的增广数据集,可以增加数据集的多样性和质量,这两个性能的改善可以有效增加模型的训练能力,提高了模型的泛化能力。本专利技术能使一些获取数据集困难的生态领域得到进一步发展。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种生态数值数据的增广方法,具体包括以下步骤:
[0007]S1:对生态数值数据集进行预处理;
[0008]S2:数值数据增广:搭建生成式自编码网络模型,并将预处理后的数据集输入生成式自编码网络模型训练;然后利用训练好的生成式自编码网络模型进行数据增广;
[0009]S3:数值数据集质量检测:首先采用距离度量来判断增广数据集的质量,其次是信息度量,即比较增广数据集与原始数据集的关联信息是否一致。
[0010]S4:增广数据集的验证。
[0011]进一步,步骤S1中,使用均值归一化对数据进行标准化预处理,均值归一化表达式为:
[0012][0013]其中,u表示均值,value表示在一组数值数据中第i个元素的值,max是一组数据中的最大值,x为标准化之后的数据。
[0014]进一步,步骤S2具体包括以下步骤:搭建并训练生成式自编码网络模型,具体包括以下步骤:
[0015]S21:基于数据预处理部分得到已处理的数据集,将数据集加载到网络模型中;
[0016]S22:搭建生成式自编码网络模型,将网络输入层的结点数设置为大于输入数据的长度,将隐变量空间扩大;
[0017]S23:初始化随机噪声,并放在已加载的数据集后面,形成更高维的数据,然后将其转换成张量形成输入数据;
[0018]S24:基于步骤S22搭建好的模型,初始化权重并将输入数据输入模型中,计算损失值,将其损失值反向传播到网络模型,使用梯度下降算法更改神经元权重来降低其损失值;
[0019]S25:当损失函数降到最低时,多次取出模型的输出就得到了本次训练生成的增广数据集;
[0020]S26:多次调节随机噪声的上限,重复步骤S23~S25来增广高质量的数据集。
[0021]进一步,步骤S22中,搭建的生成式自编码网络模型包括编码器与解码器,编码器由4个单层网络组成,第一层为输入层,输入层的结点个数比输入数据的维度数多出1个或多个(个数可以通过生成的增广数据集的质量来调参设置),空余位置是为了加入随机噪声,而第二、三、四层的结点个数分别为640、480、320;每层之间的激活函数使用ReLu函数;解码器同样由4个单层网络组成,结点参数分别设置为320、480、640、数据的维度数;其激活函数设置为ReLu函数,损失函数设置为L1loss。
[0022]ReLu激活函数为:f(x)=max(0,x)。
[0023]进一步,步骤S3中,采用距离度量来判断增广数据集的质量,具体包括以下步骤:
[0024]S301:搭建变分自编码网络模型,使用标准化处理后的数据训练模型;
[0025]S302:将标准化后的数值数据集输入训练好的模型,取出变分自编码网络模型隐变量网络层的输出结果,并将其保存在CSV格式文件中;同理将增广数据集训练同样结构的模型,并将其隐变量层的结果进行保存;保存结果即为提取的数据的主要特征;
[0026]S303:将步骤S302保存的特征结果通过分布的形式展示,观察原始数据集的分布与增广数据集的分布的差异大小;
[0027]S304:使用wasserstein距离度量两个分布之间的距离。
[0028]进一步,步骤S3中,信息度量具体包括以下步骤:
[0029]S311:将原始数据集划分为50%的训练集、30%的验证集和20%的测试集;
[0030]S312:使用原始数据集的训练集训练keras序列模型,使用验证集来调整模型参数,选出最佳模型;
[0031]S313:从增广数据集中随机选出与测试集相同样本量的数据集作为测试集;
[0032]S314:将增广数据集的测试集和原始数据集的测试集输入到最优模型中,比较两种情况的MSE评价指标和R2评价指标相差大小,相差越大代表增广数据集的质量越差。
[0033]本专利技术的有益效果在于:
[0034]1)本专利技术搭建的生成式自编码网络能够灵活控制增广数值数据集多样性和质量,生成的增广数据集在质量上比以往技术更好。使用生成对抗网络来增广生态数值数据集,
不能稳定地生成高质量的数据集,也不能保证生成的增广数据集的质量。
[0035]2)本专利技术使用了多种角度来验证数值数据集的质量问题,确保生成的增广数据集的可用性,比起以往的技术更加具有可靠性。
[0036]3)本专利技术的训练效率高于生成对抗网络,使用起来更加方便。
[0037]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0038]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0039]图1为生态数值数据增广方法的流程图;
[0040]图2为生成式自编码网络结构图;
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生态数值数据的增广方法,其特征在于,该方法具体包括以下步骤:S1:对生态数值数据集进行预处理;S2:数值数据增广:搭建生成式自编码网络模型,并将预处理后的数据集输入生成式自编码网络模型训练;然后利用训练好的生成式自编码网络模型进行数据增广;S3:数值数据集质量检测:首先采用距离度量来判断增广数据集的质量,其次是信息度量,即比较增广数据集与原始数据集的关联信息是否一致。2.根据权利要求1所述的生态数值数据的增广方法,其特征在于,步骤S1中,使用均值归一化对数据进行标准化预处理,均值归一化表达式为:其中,u表示均值,value表示在一组数值数据中第i个元素的值,max是一组数据中的最大值,x为标准化之后的数据。3.根据权利要求1所述的生态数值数据的增广方法,其特征在于,步骤S2具体包括以下步骤:搭建并训练生成式自编码网络模型,具体包括以下步骤:S21:基于数据预处理部分得到已处理的数据集,将数据集加载到网络模型中;S22:搭建生成式自编码网络模型,将网络输入层的结点数设置为大于输入数据的长度,将隐变量空间扩大;S23:初始化随机噪声,并放在已加载的数据集后面,形成更高维的数据,然后将其转换成张量形成输入数据;S24:基于步骤S22搭建好的模型,初始化权重并将输入数据输入模型中,计算损失值,将其损失值反向传播到网络模型,使用梯度下降算法更改神经元权重来降低其损失值;S25:当损失函数降到最低时,多次取出模型的输出就得到了本次训练生成的增广数据集;S26:多次调节随机噪声的上限,重复步骤S23~S25来增广高质量的数据集。4.根据权利要求3所述的生态数值数据的增广方法,其特征在于,步骤S22中,搭建的生成式自编码网络模型包括编码器与解码器,编...

【专利技术属性】
技术研发人员:屈洪春余浩王红胜刘光辉翟世东
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1