数据建模中的缺失值处理方法和装置、设备及存储介质制造方法及图纸

技术编号:26478586 阅读:23 留言:0更新日期:2020-11-25 19:22
本申请公开了一种数据建模中的缺失值处理方法,通过获取样本数据集,将样本数据集中的缺失值替换为预设值,并基于样本数据集中的各数据构造多个变量;其中,每个变量中均包含有多个数据,将各变量中的数据进行分段得到多个数据段,其中,缺失值划分到同一数据段中,计算各变量的信息值,由多个变量中选择第一数量的变量,并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变,因此保留了数据的真实性和准确性,并且将缺失值看作一种正常的属性值,与其他属性值一同参与到建模计算过程中,将会更清晰表现变量的缺失值对建模目标的趋势关系,有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。

【技术实现步骤摘要】
数据建模中的缺失值处理方法和装置、设备及存储介质
本公开涉及数据建模领域,尤其涉及一种数据建模中的缺失值处理方法和装置、设备及存储介质。
技术介绍
在数据建模中,样本数据中有些变量存在缺失值,由于缺失值隐藏了样本数据的历史特征,所以在数据预处理阶段需要对缺失值数据进行技术处理,以求从缺失数据中发现更多特征,找到和分析目标之间的关系,并且符合建模程序的需要。现有技术中,对于缺失值的处理方法主要以下几种:删除、特殊值填充、均值填充、就近补齐、聚类填充、使用所有可能的值填充、组合完整化方法和回归插补法。现有技术不论是删除还是填补,都会不同程度地改变数据本身,从而影响最终的模型效果。缺失值是由于多种原因导致的结果,如果弄不清楚导致缺失值的原因而人为根据处理经验和业务理解去填充,就改变了缺失值的现状结果,从而掩盖了缺失值的变化历史,甚至人为增加或者改变了填充值与其它正常值之间的联系,从而影响该变量对建模目标的影响关系。
技术实现思路
有鉴于此,本公开提出了一种数据建模中的缺失值处理方法,包括:获本文档来自技高网...

【技术保护点】
1.一种数据建模中的缺失值处理方法,其特征在于,包括:/n获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;/n将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;/n计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。/n

【技术特征摘要】
1.一种数据建模中的缺失值处理方法,其特征在于,包括:
获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;
将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;
计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。


2.根据权利要求1所述的方法,其特征在于,基于所述样本数据集中的各数据构造多个变量,包括:
获取所述样本数据集中的各所述数据和预先设置的各所述变量的变量名;
根据各所述数据的属性和各所述变量名,将各所述数据归属到相应的所述变量中;
其中,所述数据的属性与所述变量名相对应。


3.根据权利要求1所述的方法,其特征在于,将各所述变量中的所述数据进行分段得到多个数据段,包括:
将各所述变量中所包含的数据依据预设条件进行分段,得到多个初始数据段;
依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,得到所述数据段。


4.根据权利要求3所述的方法,其特征在于,依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,包括:
获取同一变量下各所述初始数据段在另一变量中所对应的权值;其中,所述权值为各所述初始数据段中各所述数据在另一变量所对应的数据的均值、众数中的任意一种;
若两个所述初始数据段的权值的差值小于或等于设定值,则合并两个所述初始数据段;
若两个所述初始数据段的权值的差值大于所述设定值,则保留两个所述初始数据段。


5.根据权利要求4所述的方法,其特征在于,获取同一...

【专利技术属性】
技术研发人员:王建刚
申请(专利权)人:苏州研数信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1