数据建模中的缺失值处理方法和装置、设备及存储介质制造方法及图纸

技术编号:26478586 阅读:10 留言:0更新日期:2020-11-25 19:22
本申请公开了一种数据建模中的缺失值处理方法,通过获取样本数据集,将样本数据集中的缺失值替换为预设值,并基于样本数据集中的各数据构造多个变量;其中,每个变量中均包含有多个数据,将各变量中的数据进行分段得到多个数据段,其中,缺失值划分到同一数据段中,计算各变量的信息值,由多个变量中选择第一数量的变量,并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变,因此保留了数据的真实性和准确性,并且将缺失值看作一种正常的属性值,与其他属性值一同参与到建模计算过程中,将会更清晰表现变量的缺失值对建模目标的趋势关系,有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。

【技术实现步骤摘要】
数据建模中的缺失值处理方法和装置、设备及存储介质
本公开涉及数据建模领域,尤其涉及一种数据建模中的缺失值处理方法和装置、设备及存储介质。
技术介绍
在数据建模中,样本数据中有些变量存在缺失值,由于缺失值隐藏了样本数据的历史特征,所以在数据预处理阶段需要对缺失值数据进行技术处理,以求从缺失数据中发现更多特征,找到和分析目标之间的关系,并且符合建模程序的需要。现有技术中,对于缺失值的处理方法主要以下几种:删除、特殊值填充、均值填充、就近补齐、聚类填充、使用所有可能的值填充、组合完整化方法和回归插补法。现有技术不论是删除还是填补,都会不同程度地改变数据本身,从而影响最终的模型效果。缺失值是由于多种原因导致的结果,如果弄不清楚导致缺失值的原因而人为根据处理经验和业务理解去填充,就改变了缺失值的现状结果,从而掩盖了缺失值的变化历史,甚至人为增加或者改变了填充值与其它正常值之间的联系,从而影响该变量对建模目标的影响关系。
技术实现思路
有鉴于此,本公开提出了一种数据建模中的缺失值处理方法,包括:获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。在一种可能的实现方式中,基于所述样本数据集中的各数据构造多个变量,包括:获取所述样本数据集中的各所述数据和预先设置的各所述变量的变量名;根据各所述数据的属性和各所述变量名,将各所述数据归属到相应的所述变量中;其中,所述数据的属性与所述变量名相对应。在一种可能的实现方式中,将各所述变量中的所述数据进行分段得到多个数据段,包括:将各所述变量中所包含的数据依据预设条件进行分段,得到多个初始数据段;依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,得到所述数据段。在一种可能的实现方式中,依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,包括:获取同一变量下各所述初始数据段在另一变量中所对应的权值;其中,所述权值为各所述初始数据段中各所述数据在另一变量所对应的数据的均值、众数中的任意一种;若两个所述初始数据段的权值的差值小于或等于设定值,则合并两个所述初始数据段;若两个所述初始数据段的权值的差值大于所述设定值,则保留两个所述初始数据段。在一种可能的实现方式中,获取同一变量下各所述初始数据段在另一变量中所对应的权值包括:获取各所述初始数据段中各数据在另一变量中所对应的数据;基于所述初始数据段中各数据在另一变量中所对应的数据进行计算,得到所述初始数据段在另一变量中所对应的权值。在一种可能的实现方式中,由多个所述变量中选择第一数量的变量包括:根据各所述信息值将多个所述变量进行排序,得到变量排序结果;依据所述变量排序结果,选择所述第一数量的变量。在一种可能的实现方式中,由多个所述变量中选择第一数量的变量,并基于所述第一数量的变量建立模型时,采用递归算法进行所述变量的选择。根据本公开的另一方面,提供了一种数据建模中的缺失值处理装置,其特征在于,包括变量构造模块、变量分段模块和建模变量选择模块;所述变量构造模块,被配置为获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;所述变量分段模块,被配置为将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;所述建模变量选择模块,被配置为计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。根据本公开的另一方面,提供了一种数据建模中的缺失值处理设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令时实现前面任一所述的方法。根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现前面任一所述的方法。通过获取样本数据集,将样本数据集中的缺失值替换为预设值,并基于样本数据集中的各数据构造多个变量;其中,每个变量中均包含有多个数据,将各变量中的数据进行分段得到多个数据段,其中,缺失值划分到同一数据段中,计算各变量的信息值,由多个变量中选择第一数量的变量,并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变,因此保留了数据的真实性和准确性,同时,在建模过程中对缺失值进行了特殊处理,并不影响建模计算的顺利进行,并且将缺失值看作一种正常的属性值,与其他属性值一同参与到建模计算过程中,将会更清晰表现变量的缺失值对建模目标的趋势关系,有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出本公开的数据建模中的缺失值处理方法的流程图;图2示出本公开的数据建模中的缺失值处理方法的缺失值示意图;图3示出本公开的数据建模中的缺失值处理方法的数据分段示意图;图4示出本公开的数据建模中的缺失值处理方法的信息值示意图;图5示出本公开的数据建模中的缺失值处理方法的趋势关系示意图;图6示出本公开的数据建模中的缺失值处理装置的框图;图7示出本公开的数据建模中的缺失值处理设备的框图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。图1示出根据本公开一实施例的数据建模中的缺失值处理方法的流程图。如图1所示,该数据建模中的缺失值处理方法包括:步骤S100,获取样本数据集,将样本数据集中的缺失值替换为预设值,并基于样本数据集中的各数据构造多个变量本文档来自技高网...

【技术保护点】
1.一种数据建模中的缺失值处理方法,其特征在于,包括:/n获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;/n将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;/n计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。/n

【技术特征摘要】
1.一种数据建模中的缺失值处理方法,其特征在于,包括:
获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;
将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;
计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。


2.根据权利要求1所述的方法,其特征在于,基于所述样本数据集中的各数据构造多个变量,包括:
获取所述样本数据集中的各所述数据和预先设置的各所述变量的变量名;
根据各所述数据的属性和各所述变量名,将各所述数据归属到相应的所述变量中;
其中,所述数据的属性与所述变量名相对应。


3.根据权利要求1所述的方法,其特征在于,将各所述变量中的所述数据进行分段得到多个数据段,包括:
将各所述变量中所包含的数据依据预设条件进行分段,得到多个初始数据段;
依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,得到所述数据段。


4.根据权利要求3所述的方法,其特征在于,依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,包括:
获取同一变量下各所述初始数据段在另一变量中所对应的权值;其中,所述权值为各所述初始数据段中各所述数据在另一变量所对应的数据的均值、众数中的任意一种;
若两个所述初始数据段的权值的差值小于或等于设定值,则合并两个所述初始数据段;
若两个所述初始数据段的权值的差值大于所述设定值,则保留两个所述初始数据段。


5.根据权利要求4所述的方法,其特征在于,获取同一...

【专利技术属性】
技术研发人员:王建刚
申请(专利权)人:苏州研数信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1