一种基于NSIR模式的DIRVAE算法制造技术

技术编号:35103997 阅读:37 留言:0更新日期:2022-10-01 17:13
本发明专利技术提出一种基于NSIR模式的DIRVAE算法,NSIR(Negative Skewed Imbalanced Regression)模式的不平衡回归问题的特点是回归样本的目标值分布属于负偏态分布,这一特点导致目标值小的样本数量远少于目标值大的样本数量,不同目标值区间内的回归样本数量相差很大会进一步影响机器学习模型的效果。本发明专利技术提出了生成样本和原始样本分布之间的变化率指标,该指标可以衡量生成样本的质量,并用来指导样本的生成,设计了RVAE(Regression Variational Autoencoder)模块和NSIRLSTM(Negative Skewed Imbalanced Regression Long Short Term Memory)模块来学习回归样本的分布信息和少数类样本附近的样本信息,使生成的回归样本和原始的回归样本更相似,最终通过增加少数类回归样本的数量来提高预测模型的预测精度。的预测精度。的预测精度。

【技术实现步骤摘要】
一种基于NSIR模式的DIRVAE算法


[0001]本专利技术属于机器学习中的不平衡学习领域,主要用来解决回归样本中存在的数据不平衡问题。

技术介绍

[0002]现实中的数据大多是不平衡的,不平衡数据包括不平衡分类数据和不平衡回归数据,目标值分布的不平衡给数据挖掘带来了很大的挑战,目前不平衡分类数据已经得到了很好的解决,但是对不平衡回归问题的研究还比较少。由于实验装置或环境的限制导致无法获取特定范围内的样本,这样的回归样本数据被称为不平衡回归数据。特别地,我们将目标值分布属于负偏态分布的回归样本称为NSIR模式的不平衡回归问题,该模式下的不平衡回归问题会导致机器学习模型在多数类样本部分的训练效果较好,少数类回归样本部分的训练效果较差,进而影响整个模型的训练效果,通过对NSIR模式下的不平衡回归问题进行处理来提高机器学习模型的效果显得尤为重要。
[0003]目前对不平衡回归问题的解决方法主要是将处理不平衡分类问题的方法直接应用到回归任务中,这些方法主要包括线性插值和模型集成,这样做的弊端是没有考虑回归样本本身的特性,具体地,可以分为两个方面:在生成样本时,没有考虑相邻目标值分布附近的样本信息、,由于回归不平衡数据的目标标值是连续的,所以标值分布的相邻样本之间存在一定的关系,但目前的研究忽略了这一特点,导致生成的样本丢失了样本信息;没有学习原始样本的分布信息,目前的研究主要采用线性插值方法来处理回归领域中的分类不平衡问题,没有了解原始样本的分布信息,导致生成的样本与原始样本之间存在较大的差距。
专利技术内
[0004]针对现有的不足,本专利技术提供一种基于NSIR模式的DIRVAE算法。
[0005]本专利技术解决其技术问题所采用的技术方案是:一种基于NSIR模式的DIRVAE算法,包括以下步骤:
[0006]步骤一:通过NSIRLSTM模型找到少数类样本目标值右侧的K个样本并生成中间样本s1;
[0007]步骤二:利用RVAE(回归自编码器)模型学习原始回归样本的分布信息μ(均值)和ε(方差);
[0008]步骤三:通过结合原始样本的分布信息和标准正态分布生成样本s2。样本s2既符合原始样本的分布,又增加了生成样本的多样性;
[0009]步骤四:利用全连接层综合考虑样本s1和s2并最终生成样本s;
[0010]步骤五:利用对抗思想优化生成样本s,使生成的样本更接近于真实样本,并通过目标值预测器使生成的样本更符合目标值。
[0011]作为优选,提出了生成样本和原始样本分布之间的变化率指标,该指标可以衡量生成样本的质量,并用来指导样本的生成,提出一种考虑回归样本目标值连续性样本生成
模型NSIRLSTM,该模型首先通过近邻思想找到少数类回归样本附近的K个样本,并利用递归神经网络使生成的样本s1考虑了相邻回归样本之间的关系,这一部分提出的衡量生成样本质量的变化率函数为:
[0012]其中,μ
x
和ε
x
为原始回归样本的均值和方差,μ
x1
和ε
s1
为生成样本的均值和方差。
[0013]作为优选,利用RVAE算法可以学习原始回归样本的分布信息,这一部分的误差函数为:L
KL
=(1/2)*(μ
T
μ+sum(exp(ε)

ε

1))
[0014]其中,μ和ε分别是学习到的原始样本的潜在分布的均值和方差。
[0015]作为优选,用对抗思想通过让生成器模型和判别器模型实现那什平衡来优化生成器和判别器。具体来说,判别器试图最小化损失函数:
[0016]其中G(z)是生成器生成的样本。D(x)和D(G(z))分别为判别器判别真实样本和生成样本结果。
[0017]利用回归预测器预测生成样本的目标值,使生成器能生成指定目标值的回归样本。这一部分的误差函数为:
[0018]其中y为原始回归样本的目标值,f
P
为预测模型的映射函数。
[0019]与现有技术相比,本专利技术的有益效果为:充分考虑了不平衡回归样本的特点,利用少数类回归样本附近的样本使生成的样本能考虑回归样本目标值的连续性;同时,利用RVAE模型学习回归样本的分布信息,使生成的样本更符合原始样本的分布;通过对抗思想使生成的样本更多样化;使用回归预测模型可以生成特定目标值的样本。
附图说明
[0020]图1为本专利技术所述的基于NSIR模式的DIRVAE算法的流程示意图。
具体实施方式
[0021]下面将结合本专利技术实施的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本专利技术一部分实施例子,而不是全部实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]如图1所示,本专利技术提供了一种基于NSIR模式的DIRVAE算法,其基本实现过程如下:
[0023]步骤一:通过NSIRLSTM模型找到少数类样本目标值右侧的K个样本并生成中间样本s1;
[0024]步骤二:根据任何复杂的分布都可以由高斯分布转化得到这一思想,首先学习原始样本的潜在高斯分布,这一过程包括学习原始样本的均值和方差,再通过输入标准正态
分布得到原始样本的潜在高斯分布,由机器学习进一步将该高斯分布转化为原始的复杂分布,最后通过输入不同的高斯分布噪声生成符合原始分布的回归样本;
[0025]步骤三:通过结合原始样本的分布信息和标准正态分布生成样本s2;
[0026]步骤四:利用全连接层综合考虑样本s1和s2并最终生成样本s;
[0027]步骤五:利用对抗思想优化生成样本s,将生成样本和原始样本输入到判别器中,当判别器判别错误时说明生成样本s和原始样本的相似性高,利用判别器的判别误差来更新生成器生成样本的效果,使生成的样本更接近于真实样本,并通过目标值预测器使生成的样本更符合目标值。
[0028]综上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NSIR模式的DIRVAE算法,主要包括以下步骤:步骤一:通过NSIRLSTM模型找到少数类样本目标值右侧的K个样本并生成中间样本s1;步骤二:利用RVAE模型学习原始回归样本的分布信息μ(均值)和ε(方差);步骤三:通过结合原始样本的分布信息和标准正态分布噪声生成样本s2,样本s2既符合原始样本的分布,又增加了生成样本的多样性;步骤四:利用全连接层综合考虑样本s1和s2并得到生成样本s;步骤五:利用对抗思想优化生成样本s,使生成的样本更接近于真实样本,并通过目标值预测器使生成的样本更符合目标值。2.根据权利要求书1中所述一种基于NSIR模式的DIRVAE算法,其特征在于,在步骤一中,提出了生成样本和原始样本分布之间的变化率指标,该指标可以衡量生成样本的质量,并用来指导样本的生成,提出一种考虑回归样本目标值连续性样本生成模型NSIRLSTM,该模型首先通过近邻思想找到少数类回归样本附近的K个样本,并利用递归神经网络使生成的样本s1考虑了相邻回归样本之间的关系,这一部分提出的衡量生成样本质量的变化率函数为:L
NSIRLSTM
=(1/2)*((μ
x

μ
s1
)/μ
x
+(ε
x

ε
s1
)/ε
x
)其...

【专利技术属性】
技术研发人员:田慧欣田春芝
申请(专利权)人:天津工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1