样本数据处理方法和计算机程序产品技术

技术编号:46426293 阅读:4 留言:0更新日期:2025-09-19 20:33
本发明专利技术公开了一种样本数据处理方法和计算机程序产品。该方法包括:构建正样本数据集和负样本数据集;根据样本数量确定正样本数据集和负样本数据集中的多数类样本集和少数类样本集,根据多数类样本集和少数类样本集对应的样本数量确定多数类样本集的总采样率;对多数类样本集中的多个初始样本数据进行聚类,得到多个多数类样本簇,根据多数类样本簇与少数类样本集之间的距离以及总采样率分别确定每个确定多数类样本簇的目标采样率;分别根据多数类样本簇对应的目标采样率对多数类样本簇中的初始样本数据进行采样,得到多个采样样本数据,根据多个采样样本数据和少数类样本集构建目标样本数据集。实现了样本数据的数据均衡,提高了样本数据的质量。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种样本数据处理方法和计算机程序产品


技术介绍

1、样本数据在模型训练过程中的核心基础,其作用贯穿整个模型的开发流程,直接影响模型的性能和泛化能力。

2、相关技术中,样本数据通常依赖于有限的数据进行生成,并且,样本数据中往往存在数据类型不均衡等问题。数据不平衡是指在一个数据集中,不同类别的样本数据数量差异很大,导致某些类别的样本数量远远小于其他类别样本的数量。通常情况下,数据不平衡现象往往是指二分类问题中一个类别样本数量远远少于另一个类别样本数量。这种情况下,模型可能会更加倾向于预测较多的类型,因为,它们看起来更加普遍。这也就使得模型对于样本数量较少的类型进行预测时存在预测不准确的问题。换言之,难以利用已有的样本数据获取到符合要求的数据模型。


技术实现思路

1、本专利技术提供了一种样本数据处理方法和计算机程序产品,以解决相关技术中样本数据不足和不平衡的问题。

2、根据本专利技术的一方面,提供了一种样本数据处理方法,该方法包括:>

3、构建正样本文档来自技高网...

【技术保护点】

1.一种样本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的样本数据处理方法,其特征在于,所述构建正样本数据集和负样本数据集,包括:

3.根据权利要求2所述的样本数据处理方法,其特征在于,所述样本生成模型采用生成对抗网络对生成器训练得到;所述生成对抗网络中与所述生成器进行对抗训练的判别器的损失函数中包括调制因子;所述调制因子用于控制难易样本的权重衰减程度。

4.根据权利要求3所述的样本数据处理方法,其特征在于,所述判别器的损失函数为:

5.根据权利要求2所述的样本数据处理方法,其特征在于,所述样本生成模型包括编码器和解码器;所述编...

【技术特征摘要】

1.一种样本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的样本数据处理方法,其特征在于,所述构建正样本数据集和负样本数据集,包括:

3.根据权利要求2所述的样本数据处理方法,其特征在于,所述样本生成模型采用生成对抗网络对生成器训练得到;所述生成对抗网络中与所述生成器进行对抗训练的判别器的损失函数中包括调制因子;所述调制因子用于控制难易样本的权重衰减程度。

4.根据权利要求3所述的样本数据处理方法,其特征在于,所述判别器的损失函数为:

5.根据权利要求2所述的样本数据处理方法,其特征在于,所述样本生成模型包括编码器和解码器;所述编码器用于将输入的噪声向量转化为潜在空间向量;所述解码器用于将所述潜在空间向量转换为模拟样本数据。

6.根据...

【专利技术属性】
技术研发人员:高红伟贾志强
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1