一种数据处理方法、装置、系统及存储介质制造方法及图纸

技术编号:24289764 阅读:51 留言:0更新日期:2020-05-26 20:05
本发明专利技术实施例公开了一种数据处理方法、装置、系统及存储介质,通过上采样对数据较少的类型样本进行增加样本处理,通过下采样对数据较多的类型样本进行减少样本处理,是模型中的各类型样本数据达到预设的比例,进而使模型预测的准确率更高,同时通过z‑score标准化处理使样本数据标准化,进而减少样本数据中的异常值对计算结果的影响,增强了模型预测的准确率和鲁棒性。

A data processing method, device, system and storage medium

【技术实现步骤摘要】
一种数据处理方法、装置、系统及存储介质
本专利技术实施例涉及数据处理
,具体涉及一种数据处理方法、装置、系统及存储介质。
技术介绍
针对智能营销中对数据挖掘特征工程,在该数据挖掘特征工程中,需要处理样本类别平衡及实现样本数据标准化,现有解决方案实现机制大致为:只对数据进行缺失化处理;数据标准化使用的是min_max归一化处理方式。但当样本分布不均衡时,会导致样本量少的分类所包含的特征过少,模型预测结果偏向于样本量多的分类,这会造成模型对数量多的类别的分类性能更好,同时当模型应用到新数据时,模型准确性和鲁棒性很差。而针对训练数据中存在异常值,归一化数据处理方式并不能很好解决异常值对模型训练的影响,造成模型预测准确率不高。
技术实现思路
为此,本专利技术实施例提供一种数据处理方法、装置、系统及存储介质,以解决现有技术中由于样本分布不均以及异常值影响而导致的模型预测准确率低的问题。为了实现上述目的,本专利技术实施例提供如下技术方案:根据本专利技术实施例的第一方面,一种数据处理方法,包括以下步骤:获取某一模型中的数据样本;根据所述模型中的样本对所述模型进行缺失值处理;根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理;根据进行样本平衡后模型的样本对所述模型进行数据标准化处理。进一步地,所述根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理具体包括:根据所述模型中某一类型数据的占比率判断所述类型数据的占比率是否等于所述类型数据的预设占比率;如判断结果为是,则执行下一步骤,如判断结果为否,则进行样本平衡处理。进一步地,所述样本平衡处理具体包括根据所述模型中所述类型数据的占比率判断所述类型数据的占比率是否高于所述类型数据的预设占比率,如判断结果为是,则进行下采样处理,所述下采样处理具体包括:减少所述模型中所述类型数据。进一步地,所述样本平衡处理具体包括根据所述模型中所述类型数据的占比率判断所述类型数据的占比率是否低于所述类型数据的预设占比率,如判定结果为是,则进行上采样处理,所述上采样处理具体包括:增加所述模型中所述类型数据。进一步地,所述增加所述模型中所述类型数据具体包括:使用SMOTE算法增加所述模型中所述类型数据。根据权利要求1所述的一种数据处理方法,其特征是:所述根据进行样本平衡后模型的样本对所述模型进行数据标准化处理具体包括:对进行样本平衡后模型的样本进行z-score标准化处理。根据本专利技术实施例的第二方面,一种数据处理装置,包括样本获取单元:获取某一模型中的数据样本;缺失值处理单元:根据所述模型中的样本对所述模型进行缺失值处理;样本平衡处理单元:根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理;数据标准化处理单元:根据进行样本平衡后模型的样本对所述模型进行数据标准化处理。根据本专利技术实施例的第三方面,一种数据处理方法的电子设备,包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如一种数据处理方法中任一所述的方法。根据本专利技术实施例的第四方面,一种数据处理方法的计算机可读存储介质,包括:其上存储有计算机程序,所述计算机程序被处理器执行时实现如一种数据处理方法中任一所述方法的步骤。本专利技术实施例具有如下优点:通过上采样对数据较少的类型样本进行增加样本处理,通过下采样对数据较多的类型样本进行减少样本处理,是模型中的各类型样本数据达到预设的比例,进而使模型预测的准确率更高,同时通过z-score标准化处理使样本数据标准化,进而减少样本数据中的异常值对计算结果的影响,增强了模型预测的准确率和鲁棒性。附图说明为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。图1为本专利技术实施例1提供的一种数据处理方法的方法流程图;图2为本专利技术实施例2提供的一种数据处理系统的系统框图;图3为本专利技术实施例3提供的一种数据处理系统的结构示意图。图中:401、样本获取单元;402、缺失值处理单元;403、样本平衡处理单元;404、数据标准化处理单元;501、处理器;502、储存器。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:一种数据处理方法,参见附图1,包括以下步骤:S1、获取某一模型中的数据样本;具体的,从模型中获取数据样本,该数据样本可以为需要进行预测的数据样本,也可以是全部数据样本,在本实施例中,以一个大额存单偏好的二分类模型为例,即获取该大额存单偏好模型中的样本数据。S2、根据所述模型中的样本对所述模型进行缺失值处理;具体的,对上述在大额存单偏好模型中获取的样本数据进行缺失值处理,缺失值处理为常规处理手段,缺失值产生的原因主要是由于机械原因和人为原因,由于设备原因导致的数据收集或保存的失败造成的数据缺失为机械原因,由于人的主观失误、历史局限或有意隐瞒造成的数据缺失为人为原因,在本实施例中,缺失值处理分为删除缺失值和缺失值插补,删除缺失值即对含有缺失值的数据进行删除处理,缺失值插补即为利用可能值插补缺失值,在本实施例中,缺失值插补包括但不限于均值插补、同类均值插补、极大似然估计插补和多重插补,在本实施例中,优选为均值插补的方式。S3、根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理;具体的,根据所述模型中某一类型数据的占比率判断所述类型数据的占比率是否等于所述类型数据的预设占比率;如判断结果为是,则执行下一步骤,如判断结果为否,则进行样本平衡处理。在本实施例中,大额存单偏好模型由于是一个二分类模型,其中只包含是/否大额存单两种分类,在本实施例中,不是大额存单的数据量优选为128866个,占总数据量比例为93.5%,而是大额存单的数据量优选为8967个,占总数据量比例为6.5%,在本实施例中,由于是二分类模型,其大额存单的两个分类本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征是:包括以下步骤:/n获取某一模型中的数据样本;/n根据所述模型中的样本对所述模型进行缺失值处理;/n根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理;/n根据进行样本平衡后模型的样本对所述模型进行数据标准化处理。/n

【技术特征摘要】
1.一种数据处理方法,其特征是:包括以下步骤:
获取某一模型中的数据样本;
根据所述模型中的样本对所述模型进行缺失值处理;
根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理;
根据进行样本平衡后模型的样本对所述模型进行数据标准化处理。


2.根据权利要求1所述的一种数据处理方法,其特征是:
所述根据进行缺失值处理后模型的样本对所述模型进行样本平衡处理具体包括:
根据所述模型中某一类型数据的占比率判断所述类型数据的占比率是否等于所述类型数据的预设占比率;如判断结果为是,则执行下一步骤,如判断结果为否,则进行样本平衡处理。


3.根据权利要求2所述的一种数据处理方法,其特征是:所述样本平衡处理具体包括:
根据所述模型中所述类型数据的占比率判断所述类型数据的占比率是否高于所述类型数据的预设占比率,如判断结果为是,则进行下采样处理,所述下采样处理具体包括:减少所述模型中所述类型数据。


4.根据权利要求2所述的一种数据处理方法,其特征是:所述样本平衡处理具体包括:
根据所述模型中所述类型数据的占比率判断所述类型数据的占比率是否低于所述类型数据的预设占比率,如判定结果为是,则进行上采样处理,所述上采样处理具体包括:增加所述模型中所述类型数据。<...

【专利技术属性】
技术研发人员:唐禹汪振兴林叶强朱贞龙
申请(专利权)人:天阳宏业科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1