数据空值处理方法、装置及终端设备制造方法及图纸

技术编号:21115695 阅读:21 留言:0更新日期:2019-05-16 08:58
本发明专利技术适用于数据处理技术领域,提供了一种数据空值处理方法、装置及终端设备,所述方法包括:检测预处理数据中是否存在空值;若预处理数据中存在空值,则根据预处理数据中与第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为预处理数据中的任一空值;根据初始均值及初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。本发明专利技术有效利用空值所蕴含的信息,根据空值的属性类型求得初始均值和初始方差矩阵,从而排除一些无用的数据,利用准确性更好的初始均值和初始方差矩阵进行迭代计算,并选择预测误差最小的模拟填充值作为最终填充值,从而提高空值处理准确性。

【技术实现步骤摘要】
数据空值处理方法、装置及终端设备
本专利技术属于数据处理
,尤其涉及一种数据空值处理方法、装置及终端设备。
技术介绍
在现实中,由于操作问题、仪器问题、系统问题等原因,在数据中普遍存在空缺数据情况。目前,国内外已提出很多有关缺失值填充的方法。尽管这些方法在各自的应用环境下得到了很好的效果,但仍然存在一些不足,传统的空值处理方法不能有效利用空值中所蕴含的信息,引用一些无用的数据,导致空值处理准确性差的问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据空值处理方法、装置及终端设备,以解决现有技术中因引用一些无用的数据,导致空值处理准确性差的问题。本专利技术实施例的第一方面提供了一种数据空值处理方法,包括:检测预处理数据中是否存在空值;若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。本专利技术实施例的第二方面提供了一种数据空值处理装置,包括:空值检测模块,用于检测预处理数据中是否存在空值;初始值计算模块,用于若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;最终填充值计算模块,用于根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述数据空值处理方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述数据空值处理方法的步骤。本专利技术实施例与现有技术相比存在的有益效果是:本专利技术实施例提供的数据空值处理方法首先检测预处理数据中是否存在空值;若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。本专利技术实施例有效利用空值所蕴含的信息,根据空值的属性类型求得初始均值和初始方差矩阵,从而排除一些无用的数据,利用准确性更好的初始均值和初始方差矩阵进行迭代计算,并选择预测误差最小的模拟填充值作为最终填充值,提高空值处理准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的数据空值处理方法的实现流程示意图;图2是本专利技术实施例提供的图1中S102的实现流程示意图;图3是本专利技术实施例提供的图1中S103的实现流程示意图;图4是本专利技术实施例提供的图1中S103的实现流程示意图;图5是本专利技术实施例提供的数据空值处理装置的结构示意图;图6是本专利技术实施例提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。本专利技术的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例1:图1示出了本专利技术的一个实施例提供的一种数据空值处理方法的实现流程,其过程详述如下:S101:检测预处理数据中是否存在空值。在本实施例中,可以从数据源中抽取原始数据,并对原始数据进行预处理后,对预处理数据进行空值检测,检测预处理数据中是否存在空值。S102:若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值。在本实施例中,可以根据预处理数据中与第一空值属性类型相同的数据,计算初始均值,然后将预处理数据中与第一空值属性类型相同的数据分别与初始均值做差,得到初始方差矩阵。S103:根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。在本实施例中,可以根据初始均值和初始方差矩阵得到多个模拟填充值,这些模拟填充值均可以作为填充值填充第一空值,考虑到由于数据填补而产生的不确定性,使填充值可以包括多个。从上述实施例可知,本专利技术实施例提供的数据空值处理方法首先检测预处理数据中是否存在空值;若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。本专利技术实施例有效利用空值所蕴含的信息,根据空值的属性类型求得初始均值和初始方差矩阵,从而排除一些无用的数据,利用准确性更好的初始均值和初始方差矩阵进行迭代计算,并选择预测误差最小的模拟填充值作为最终填充值,提高空值处理准确性。在本专利技术的一个实施例中,在图1中S101之前,本专利技术实施例还包括:从所述数据源中抽取所述原始数据,并对所述原始数据进行数据转换及数据清洗处理,得到预处理数据。在本实施例中,从数据源中采集原始数据后,需对所述原始数据进行数据转换及数据清洗处理,得到预处理数据。得到预处理数据的过程具体包括抽取、转换、清洗三个环节,其获取过程详述如下:1)抽取:数据抽取是从不同的网络、不同的操作系统、不同的数据库以及数据格式、不同的应用中抽取数据的过程。此处的数据不仅是指关系数据库中的数据,还涉及到半结构化的数据和非结构化的数据。对于半结构化数据,可以采用混合表示法对数据及数据模式进行建模,它包括一个概念层次图和一套知识框架,使用基于内容以及结构框架的方法对数据进行抽取。对于非结构化的数据,可以采用模糊匹配方法识别表格中的直线行上的字段;针对于手写汉字文件的数据,采用基于引力的算法以有效识别并抽取表格中的汉字。2)转换:由于抽取的数据存在格式不一致的情况,因此,需要对数据的名称和格式进行统一,通过数据粒度转换、商务规则计算和统一命名、数据格式和计量单位,并且,数据仓库中存在数据库中可能不存在的数据,因此,需要进行字段组合本文档来自技高网...

【技术保护点】
1.一种数据空值处理方法,其特征在于,包括:检测预处理数据中是否存在空值;若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。

【技术特征摘要】
1.一种数据空值处理方法,其特征在于,包括:检测预处理数据中是否存在空值;若所述预处理数据中存在空值,则根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,所述第一空值为所述预处理数据中的任一空值;根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,并将预测误差最小的模拟填充值作为最终填充值。2.如权利要求1所述的数据空值处理方法,其特征在于,在所述检测预处理数据中是否存在空值之前,还包括:从数据源中采集原始数据,并对所述原始数据进行预处理,得到所述预处理数据。3.如权利要求1所述的数据空值处理方法,其特征在于,所述第一空值属性包含决策属性,所述根据所述预处理数据中与所述第一空值属性类型相同的数据,计算初始均值和初始方差矩阵,包括:获取所述预处理数据中与所述第一空值的决策属性值相同的数据作为第一数据;根据所述第一数据,计算所述初始均值及所述初始方差矩阵。4.如权利要求1所述的数据空值处理方法,其特征在于,所述根据所述初始均值及所述初始方差矩阵,得到预设数量的模拟填充值,包括:将所述初始均值和所述初始方差矩阵作为初始参数代入对数似然函数,得到估计均值和估计方差矩阵;基于马尔科夫蒙特卡罗方法,根据估计均值和估计方差矩阵产生预设数量的模拟填充值。5.如权利要求1至4任一项所述的数据空值处理方法,其特征在于,所述获取预测误差最小的模拟填充值作为最终填充值,包括:利用预设数量的模拟填充值分别填充所述第一空值,得到预设数量的完整数据集...

【专利技术属性】
技术研发人员:吴又奎钟秋发王毅刚
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1