当前位置: 首页 > 专利查询>新疆大学专利>正文

基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法技术

技术编号:41745807 阅读:22 留言:0更新日期:2024-06-21 21:32
基于DBSCAN‑cGAN‑XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法,其属于用户画像生成的技术领域。该方法包括:首先,利用DBSCAN算法对提取出的稀少违规行为标签样本数据进行聚类处理,提取出簇内样本与噪声样本;然后,采用条件采样生成对抗网络模型cGAN,指定生成样本的条件满足特征的逻辑,对提取出的簇内样本进行扩充;最后,使用重新构建后的数据集对XGBoost算法进行训练,并完成违规行为类型数据的预测。再选取合适的阈值,生成预测标签,结合基本属性和行为属性标签生成的累次违规人员用户画像。和基准模型比较在数据平衡、准确率提升、用户画像构建等多个方面取得了突出的贡献。首次在不平衡数据集上实现累次违规人员用户画像,提供了准确、全面、直观的数据信息。

【技术实现步骤摘要】

本专利技术涉及基于dbscan-cgan-xgboost模型在不平衡数据上生成累次违规人员用户画像的方法,其属于用户画像生成的。


技术介绍

1、不平衡数据分类问题在各个应用领域备受关注,尤其在累次违规人员预测、欺诈检测、疾病监测以及故障检测领域中。不平衡数据分类是指数据分布明显不平衡,其中多数类是指样本数目多的类,相反样本数目少的类便是少数类。少数类数据远小于多数类数据,同时各类别所占的数据比例分布不均匀。在正常数据样本中,少数类样本数目过少,样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数据样本而导致过拟合问题,这就使得分类器的学习性能和准确率显著下降。当模型应用到新的数据上时,模型的准确性会很差。而恰恰在现实生活中,人们关注的重点就是少数类样本的预测结果,如累次违规人员预测中,人们对违规人员释放后回归正常的关注度远远低于再违规行为的关注度。

2、由于采用的broward数据集存在着少数类数据样本远小于多数类数据样本,同时各类别所占的数据比例分布不均匀的数据不平衡问题。...

【技术保护点】

1.基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法,其特征在于,包括以下步骤:

【技术特征摘要】

1.基于dbscan-cgan-xgboost模型在不平衡数据...

【专利技术属性】
技术研发人员:田生伟郑泽林杨启萌李沁峣李永庆张其洲黄火辉
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1