样本生成方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:46586251 阅读:0 留言:0更新日期:2025-10-10 21:22
本申请涉及机器学习技术领域,提供了一种样本生成方法、装置、计算机设备及可读存储介质,包括:获取待生成的原始数据集,将原始数据集分离为少数类样本集和多数类样本集;对少数类样本,通过计算每个聚类数量下的轮廓系数,确定使轮廓系数最大的最佳聚类数量,以基于最佳聚类数量,对少数类样本进行聚类,得到多个少数类样本簇以生成多个候选样本;分别获取每个候选样本到少数类样本的第一平均最近邻距离和到多数类样本的第二平均最近邻距离,以确定目标样本作为新生成的少数类样本。方法在金融欺诈检测中可精准生成符合真实欺诈模式的样本,在医疗诊断中能有效模拟罕见病特征分布,提升早期筛查的准确率。

【技术实现步骤摘要】

本申请涉及机器学习,尤其涉及一种样本生成方法、装置、计算机设备及可读存储介质


技术介绍

1、在机器学习和数据挖掘领域,数据不平衡问题是制约模型性能的关键挑战之一,尤其在金融欺诈检测和医疗健康诊断等对少数类样本(如欺诈交易、罕见病病例)具有极高识别需求的场景中,该问题更为突出。以金融领域为例,欺诈交易仅占海量交易数据的极小比例,传统模型易因少数类样本匮乏而产生“类别偏见”,导致漏检风险或误判成本剧增;同时,在医疗健康领域中,罕见病患者数据稀缺,基于不平衡数据训练的诊断模型可能错失关键特征,延误诊疗时机。

2、现有主流的少数类样本生成方法(如smote及其变体)通过邻近样本插值生成新样本,但存在显著缺陷:其一,未考虑少数类样本的内在分布结构,盲目插值可能引入跨类别边界的噪声样本(如将欺诈交易与正常交易的过渡区域误判为欺诈);其二,忽略多数类样本对生成过程的约束,导致生成样本偏离真实少数类分布或靠近多数类密集区域,反而加剧模型混淆。尤其在高维数据场景(如金融交易的多维度特征、医疗影像的高维参数)中,传统方法因“维度诅咒”导致生成样本质量急剧下降,无本文档来自技高网...

【技术保护点】

1.一种样本生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述原始数据集分离为少数类样本集和多数类样本集,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述少数类样本集和多数类样本集进行标准化处理,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述最佳聚类数量,对所述少数类样本进行聚类,得到多个少数类样本簇,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取所述少数类样本簇对应的少数类样本到所述多数类样本的最近邻距离,包括:

6.根据权利要求1所述的方法,其特征在于,...

【技术特征摘要】

1.一种样本生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述原始数据集分离为少数类样本集和多数类样本集,包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述少数类样本集和多数类样本集进行标准化处理,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述最佳聚类数量,对所述少数类样本进行聚类,得到多个少数类样本簇,包括:

5.根据权利要求1所述的方法,其特征在于,所述获取所述少数类样本簇对应的少数类样本到所述多数类样本的最近邻距离,包括:

6.根据权利要求1所...

【专利技术属性】
技术研发人员:李朋飞
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1