基于目标标签贡献度的自动化数据探索方法及系统技术方案

技术编号:33919851 阅读:34 留言:0更新日期:2022-06-25 20:51
本发明专利技术公开了一种基于目标标签贡献度的自动化数据探索方法及系统,方法包括:将特征数据与目标标签进行关联整合,得到数据集;分别将数据集输入随机森林和交叉验证模型、信息增益率算法以及随机森林算法,确定特征数据中各特征字段分别相对于目标标签贡献度的排序表;采用投票方式对三种排序表进行处理,得到特征贡献度排序表;获取特征贡献度排序表中排序靠前的预设数量个特征字段,两两进行相关性检验,并剔除相关性超过预设阈值的特征字段;针对相关性检验剔除后剩余的特征字段,按照字段的基本数据类型进行数据分布分析。通过本发明专利技术的技术方案,实现特征字段的自动化筛选,大大提高了特征筛选的效率,免去了繁琐、重复的人工工作。人工工作。人工工作。

【技术实现步骤摘要】
基于目标标签贡献度的自动化数据探索方法及系统


[0001]本专利技术涉及数据挖掘
,尤其涉及一种基于目标标签贡献度的自动化数据探索方法以及一种基于目标标签贡献度的自动化数据探索系统。

技术介绍

[0002]目前,特征工程是数据挖掘中非常重要的一个环节,也是工作量最大的环节,需要选择对目标标签贡献高的特征,同时需要进行数据探索分析,为模型构建以及模型可解释性提供输入。每次建模中都需要手工处理,包括手工编写SQL语句进行统计分析,以及通过建模手段进行特征探索,存在大量繁琐、重复的工作,工作量大,而且工作效率低。

技术实现思路

[0003]针对上述问题,本专利技术提供了一种基于目标标签贡献度的自动化数据探索方法及系统,通过机器学习模型计算数据集中的特征数据相对于目标字段的贡献度,并将贡献度较高的特征字段中相关度较高的剔除,针对剩余的特征字段进行数据分布分析,从而实现特征字段的自动化筛选,大大提高了特征筛选的效率,免去了繁琐、重复的人工工作。
[0004]为实现上述目的,本专利技术提供了一种基于目标标签贡献度的自动化数据探本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于目标标签贡献度的自动化数据探索方法,其特征在于,包括:将特征数据与目标标签进行关联整合,得到数据集;将所述数据集输入随机森林和交叉验证模型,确定所述特征数据中各特征字段分别相对于所述目标标签贡献度的第一排序表;通过信息增益率算法计算所述特征数据中各特征字段分别相对于所述目标标签贡献度的第二排序表;通过随机森林算法计算所述特征数据中各特征字段分别相对于所述目标标签贡献度的第三排序表;采用投票方式对所述第一排序表、所述第二排序表和所述第三排序表进行处理,得到特征贡献度排序表;获取所述特征贡献度排序表中排序靠前的预设数量个特征字段,两两进行相关性检验,并剔除相关性超过预设阈值的特征字段;针对相关性检验剔除后剩余的特征字段,按照字段的基本数据类型进行数据分布分析。2.根据权利要求1所述的基于目标标签贡献度的自动化数据探索方法,其特征在于,还包括:针对特征字段的数据分布分析结果,以可视化方式呈现数据特征分布图。3.根据权利要求2所述的基于目标标签贡献度的自动化数据探索方法,其特征在于,还包括:根据预设的合法性规则,对所述数据集和其中的目标标签进行合法性判断;针对判定具有合法性的数据集,分别构建所述随机森林和交叉验证模型、所述信息增益率算法和所述随机森林算法,计算其中特征字段相对于所述目标标签的贡献度;若判定所述数据集不具有合法性,则发出警告信息并退出当前程序。4.根据权利要求1所述的基于目标标签贡献度的自动化数据探索方法,其特征在于,所述按照字段的基本数据类型进行数据分布分析具体包括:针对数值型字段,按照卡方分箱法进行数据分布分析;针对枚举型字段,直接进行数据分布分析。5.一种基于目标标签贡献度的自动化数据探索系统,其特征在于,应用如权利要求1至4中任一项所述的基于目标标签贡献度的自动化数据探索方法,包括:数...

【专利技术属性】
技术研发人员:吕宁
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1