数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42234450 阅读:26 留言:0更新日期:2024-08-02 13:48
本公开关于数据处理方法、装置、电子设备和存储介质,该方法包括:获取多个负样本;确定每个第一样本簇内待保留的负样本和待剔除的负样本;将每个第一样本簇内待剔除的负样本剔除;针对每次迭代过程,执行以下操作:基于每个负样本对应的特征向量以及预设数量个初始均值向量,将每个负样本划入临时样本簇内;基于临时样本簇所对应的向量平均值以及本次迭代开始时临时样本簇对应的初始均值向量,确定迭代是否终止;确定迭代终止时获得的预设数量个临时样本簇为预设数量个第一样本簇。这样,可以实现降低负样本的数量,平衡训练数据中正样本和负样本的比例,进而可以优化机器学习模型的训练效果,提高机器学习模型应用在反欺诈场景中的识别准确率。

【技术实现步骤摘要】

本公开涉及计算机,更具体地说,涉及数据处理方法、装置、电子设备和存储介质


技术介绍

1、随着科技的发展,人们生活日益富足,某些不法分子会让受骗群众通过银行转账等方式转移财产,此类欺诈行为是一种复杂且隐蔽的行为,同时也属于受欺诈者的异常交易行为,与正常的交易行为存在不同。可以通过机器学习模型去发现并拦截此类异常交易,进而保护群众的财产安全。

2、相关技术中,可以将欺诈交易作为正样本并将正常交易作为负样本来对机器学习模型进行训练。但是,在实际场景中,欺诈交易的数量一般远小于正常交易的数量,即正样本的数据量过少,负样本的数据量过多,使得正负样本的数量严重不平衡,这会影响机器学习模型的训练效果,从而降低机器学习模型预测分类的准确率。


技术实现思路

1、本公开提供数据处理方法、装置、电子设备和存储介质,以至少解决上述相关技术中,由于正负样本的数量严重不平衡,会降低机器学习模型预测分类的准确率的问题,也可不解决任何上述问题。

2、根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取多个负本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的数据处理方法,其特征在于,所述每个负样本对应的特征向量包含该负样本所包含的预设维度信息下的预设构造特征的特征值;

3.如权利要求1所述的数据处理方法,其特征在于,所述基于所述临时样本簇所对应的向量平均值以及本次迭代开始时所述临时样本簇对应的初始均值向量,确定迭代是否终止,包括:

4.如权利要求1所述的数据处理方法,其特征在于,还包括:

5.如权利要求4所述的数据处理方法,其特征在于,所述获取筛选阈值系数,包括:

6.如权利要求5所述的数据处理方法,其特征在于,所述预...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的数据处理方法,其特征在于,所述每个负样本对应的特征向量包含该负样本所包含的预设维度信息下的预设构造特征的特征值;

3.如权利要求1所述的数据处理方法,其特征在于,所述基于所述临时样本簇所对应的向量平均值以及本次迭代开始时所述临时样本簇对应的初始均值向量,确定迭代是否终止,包括:

4.如权利要求1所述的数据处理方法,其特征在于,还包括:

5.如权利要求4所述的数据处理方法,其特征在于,所述获取筛选阈值系数,包括:

6.如权利要求5所述的数据处理方法,其特征在于,所述预...

【专利技术属性】
技术研发人员:梁大卫
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1