异常数据生成方法、存储介质及计算机程序产品技术

技术编号:42909123 阅读:31 留言:0更新日期:2024-10-11 15:41
本申请公开了一种异常数据生成方法、存储介质及计算机程序产品,涉及数据挖掘技术领域,公开了异常数据生成方法,包括:获取原始数据集,其中,所述原始数据集由原始数据制成;利用预先训练的异常数据生成模型处理所述原始数据集,生成异常数据;其中,所述异常数据生成模型包括相似类选择器、编码器、生成器、判别器和分类器,所述异常数据生成模型基于生成对抗网络训练得到。本申请利用预先训练的异常数据生成模型处理原始数据集,从而生成异常数据,进而解决数据分布不均衡,异常数据远远少于正常数据导致的模型分类性能不佳的问题;本异常数据生成模型具备泛用性,能够根据特定的应用场景生成多种类型的异常数据。

【技术实现步骤摘要】

本申请涉及数据挖掘,尤其涉及异常数据生成方法、存储介质及计算机程序产品


技术介绍

1、随着大数据、海量存储技术以及计算机能力的迅猛发展,电子商务、金融服务、医疗诊断等领域均以指数级别的速度在生成和存储数据。在大数据时代下,如何提取数据中所蕴含的有价值的信息并运用到企业经营、政府决策等领域中,已成为信息化时代的一个难题。数据分类作为数据挖掘的一项关键任务,其能够利用海量数据构建出具有足够泛化能力的模型,从而提取真实数据中的有价值信息。然而,现实世界中的数据通常呈现出类别分布不均衡的特点,即正类实例(正常数据)远远多于负类实例(异常数据)。而分类模型通常假设数据集的类别分布均匀。这使得模型在训练过程中更倾向于学习正常数据,导致对异常数据的分类性能大幅下降。在某些领域中,异常数据往往蕴含着更为重要的信息,比如在癌症异常诊断中,癌症异常人群数量相比正常人群存在极度不平衡的情况。使用这样的数据集训练分类模型时,模型很可能对正常数据过拟合,从而将癌症异常人群误判为健康人群,这将导致不可挽回的后果。

2、鉴于异常数据在实际场景中相对罕见,因此,为了从根本上本文档来自技高网...

【技术保护点】

1.一种异常数据生成方法,其特征在于,所述异常数据生成方法包括:

2.如权利要求1所述的方法,其特征在于,步骤S70之前,还包括:

3.如权利要求2所述的方法,其特征在于,所述步骤S50包括:

4.如权利要求3所述的方法,其特征在于,所述步骤A502包括:

5.如权利要求3所述的方法,其特征在于,所述步骤A503包括:

6.如权利要求1所述的方法,其特征在于,所述步骤S70包括:

7.如权利要求6所述的方法,其特征在于,所述步骤A703包括:

8.如权利要求1至7中任一项所述的方法,其特征在于,所述方法还...

【技术特征摘要】

1.一种异常数据生成方法,其特征在于,所述异常数据生成方法包括:

2.如权利要求1所述的方法,其特征在于,步骤s70之前,还包括:

3.如权利要求2所述的方法,其特征在于,所述步骤s50包括:

4.如权利要求3所述的方法,其特征在于,所述步骤a502包括:

5.如权利要求3所述的方法,其特征在于,所述步骤a503包括:

6.如权利要求1所述的方法,其特征在于,所述步骤s70包括:

7.如权利要求6所述的方法,...

【专利技术属性】
技术研发人员:叶威杨仁友秦浩李日富杨靓
申请(专利权)人:南方海洋科学与工程广东省实验室湛江
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1