【技术实现步骤摘要】
可视化特征筛选方法、服务器及存储介质
本专利技术涉及计算机
,尤其涉及一种可视化特征筛选方法、服务器及计算机存储介质。
技术介绍
在基于机器学习的预测或分类模型中,用于训练模型的历史数据为多维数据,由这些数据转换而得的特征变量数目多,总数据量大,并且同时包含连续的特征变量和离散的特征变量。在大量特征数据中如何筛选出与预测或分类结果息息相关的目标特征,使得模型预测或分类更准确,且对于不了解机器学习执行原理的用户而言,如同黑盒般的筛选过程使得特征筛选解释性差,是当前亟待解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种可视化特征筛选方法、服务器和计算机存储介质,旨在解决现有技术中基于机器学习模型进行预测或分类的特征筛选的准确性低和可解释性低的技术问题。为实现上述目的,本专利技术提供一种可视化特征筛选方法,所述可视化特征筛选方法包括如下步骤:获取预设周期内用户的数据,根据数据类型和数据标识从所述用户的数据中提取第一特征集合、第二特征集合以及目标变量,其中,所述第一特征集合包括数值 ...
【技术保护点】
1.一种可视化特征筛选方法,其特征在于,所述可视化特征筛选方法包括以下步骤:/n获取预设周期内用户的数据,根据数据类型和数据标识从所述用户的数据中提取第一特征集合、第二特征集合以及目标变量,其中,所述第一特征集合包括数值型的特征变量,所述第二特征集合中包括非数值型的特征变量,所述目标变量为所述用户的分类结果;/n获取所述第一特征集合中各个特征变量的方差,并将所述第一特征集合中所述方差不满足第一预设条件的特征变量移除,得到第三特征集合;/n在显示区域内绘制并显示雷达图坐标系,并且基于每一类用户的数据,分别计算各个第三特征集合中的特征变量对应的均值,根据所述均值在所述雷达图坐标 ...
【技术特征摘要】
1.一种可视化特征筛选方法,其特征在于,所述可视化特征筛选方法包括以下步骤:
获取预设周期内用户的数据,根据数据类型和数据标识从所述用户的数据中提取第一特征集合、第二特征集合以及目标变量,其中,所述第一特征集合包括数值型的特征变量,所述第二特征集合中包括非数值型的特征变量,所述目标变量为所述用户的分类结果;
获取所述第一特征集合中各个特征变量的方差,并将所述第一特征集合中所述方差不满足第一预设条件的特征变量移除,得到第三特征集合;
在显示区域内绘制并显示雷达图坐标系,并且基于每一类用户的数据,分别计算各个第三特征集合中的特征变量对应的均值,根据所述均值在所述雷达图坐标系中绘制与所述每一类用户的数据对应的多边形;
接收第一指令,根据所述第一指令确定目标用户,并且获取所述目标用户在第三特征集合中的特征变量对应的特征值,根据所述特征值在所述雷达图坐标系中绘制并显示所述目标用户对应的多边形;
计算所述第二特征集合以及所述第三特征集合中的各个特征变量之间的第一关联度,并计算所述第二特征集合以及所述第三特征集合中的各个特征变量与所述目标变量的第二关联度;
根据所述第一关联度和所述第二关联度在所述显示区域绘制并显示对应的热力图,其中,所述热力图包括多个单元格,每一个所述单元格对应一所述第一关联度或所述第二关联度,根据所述第一关联度或第二关联度为所述单元格填充对应的颜色;
接收基于所述热力图发出的第二指令,将所述第二指令指示移除的特征变量从所述第二特征集合以及所述第三特征集合中移除,得到第四特征集合;
将所述第二关联度不满足第二预设条件的特征变量从所述第四特征集合中移除。
2.如权利要求1所述的可视化特征筛选方法,其特征在于,所述获取所述第一特征集合中各个特征变量的方差,并将所述第一特征集合中方差不满足第一预设条件的特征变量移除,得到第三特征集合的步骤之后还包括:
计算所述第三特征集合中的各个特征变量与所述目标变量的皮尔逊相关系数,并将所述皮尔逊相关系数在预设系数阈值范围外的特征变量移除。
3.如权利要求1所述的可视化特征筛选方法,其特征在于,所述关联度为互信息值,所述第二预设条件为所述互信息值小于互信息阈值。
4.如权利要求1所述的可视化特征筛选方法,其特征在于,所述用户的数据为用户的金融数据,所述获取预设周期内用户的数据,从所述用户的数据中提取第一特征集合的步骤包括:
获取预设周期内用户的金融数据,根据所述金融数据得到第一数值型特征变量;
对所述金融数据进行同比和/或环比,得到第二数值型特征变量;
将所述第一数值型特征变量和所述第二数值...
【专利技术属性】
技术研发人员:龚燕,梁树峰,李希加,徐斌,
申请(专利权)人:未鲲上海科技服务有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。