一种大数据分析中缺失数据混合多重插值方法及系统技术方案

技术编号:33709477 阅读:32 留言:0更新日期:2022-06-06 08:39
本发明专利技术公开了一种大数据分析中缺失数据混合多重插值方法及系统,包括以下步骤:步骤S1、以缺失数据为插值中心,在缺失数据所在的数据矩阵中以与插值中心位于同一横向和同一竖向的多组未缺失数据作为多组插值模型训练数据,并将多组插值模型训练数据按在插值中心的方位分别设定出多组插值模型训练数据的插补方向;步骤S2、将所述多组插值模型训练数据按所述插补方向进行排序得到多组插值模型训练序列,并利用神经网络模型基于所述多组插值模型训练序列进行模型训练得到多组插值模型。本发明专利技术进行多方向插补,建模预估出多个缺失结果从而进行加权插补,提高缺失数据的可变性并且多个方向的插补值加权得到最优插补结果,避免过度拟合以及偏差估计。免过度拟合以及偏差估计。免过度拟合以及偏差估计。

【技术实现步骤摘要】
一种大数据分析中缺失数据混合多重插值方法及系统


[0001]本专利技术涉及数据插值
,具体涉及一种大数据分析中缺失数据混 合多重插值方法及系统。

技术介绍

[0002]目前,人们进入一个全新的大数据时代,大数据在越来越多的领域中都 有着重要的影响,同时对数据的质量要求也越来越高。由于数据量级不断的 增大,数据质量和数据可用性问题也随着不断增加,例如数据缺失、数据冗 余等,数据量越大,数据质量问题也就越严重,从而对大数据的应用和分析 将带来影响和误差。如何解决数据缺失,剔除掉缺失数据对大数据分析的影 响,这是保证大数据分析下原始数据质量至关重要的问题。
[0003]大数据中不可忽视的问题就是存在数据不完整的情况,这类数据称之为 缺失数据。缺失数据存在三种缺失机制,完全随机缺失,随机缺失和非随机 缺失。完全随机缺失表示数据的丢失是随机性的,它的缺失与数据集中任何 属性变量都无关;然而随机缺失表示数据的缺失与其他属性变量有一定联系, 与其自身的属性变量没有关系;非随机缺失表示数据的缺失只有自身的属性 变量存在联系。除此之外,数据本身的缺本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大数据分析中缺失数据混合多重插值方法,其特征在于:包括以下步骤:步骤S1、以缺失数据为插值中心,在缺失数据所在的数据矩阵中以与插值中心位于同一横向和同一竖向的多组未缺失数据作为多组插值模型训练数据,并将多组插值模型训练数据按在插值中心的方位分别设定出多组插值模型训练数据的插补方向;步骤S2、将所述多组插值模型训练数据按所述插补方向进行排序得到多组插值模型训练序列,并利用神经网络模型基于所述多组插值模型训练序列进行模型训练得到多组插值模型;步骤S3、利用多组插值模型依据所述多组插值模型训练数据得到缺失数据的多个初始插值结果,依据多组插值模型训练数据与所述插值中心的总距离为所述多组插值模型设置缺失权重,并将所述缺失权重对所述多个初始插值结果进行加权求和得到所述缺失数据的最优插值结果。2.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值方法,其特征在于:所述在缺失数据所在的数据矩阵中以与插值中心位于同一横向和同一竖向的多组未缺失数据作为多组插值模型训练数据,包括:将所述数据矩阵中与插值中心位于同一横向且位于所述插值中心的横向左侧的未缺失数据作为正横向插值模型训练数据;将所述数据矩阵中与插值中心位于同一横向且位于所述插值中心的横向右侧的未缺失数据作为反横向插值模型训练数据;将所述数据矩阵中与插值中心位于同一纵向且位于所述插值中心的纵向上侧的未缺失数据作为正竖向插值模型训练数据;将所述数据矩阵中与插值中心位于同一纵向且位于所述插值中心的纵向下侧的未缺失数据作为反竖向插值模型训练数据。3.根据权利要求2所述的一种大数据分析中缺失数据混合多重插值方法,其特征在于:所述将多组插值模型训练数据按在插值中心的方位分别设定出多组插值模型训练数据的插补方向,包括:将正横向插值模型训练数据为第一方位起点,将插值中心为方位终点,以第一方位起点至方位终点的方向设置为正横向插补方向;将反横向插值模型训练数据为第二方位起点,将插值中心为方位终点,以第二方位起点至方位终点的方向设置为反横向插补方向;将正纵向插值模型训练数据为第三方位起点,将插值中心为方位终点,以第三方位起点至方位终点的方向设置为正纵向插补方向;将反纵向插值模型训练数据为第四方位起点,将插值中心为方位终点,以第四方位起点至方位终点的方向设置为反纵向插补方向。4.根据权利要求3所述的一种大数据分析中缺失数据混合多重插值方法,其特征在于:所述将所述多组插值模型训练数据按所述插补方向进行排序得到多组插值模型训练序列,包括:将所述正横向插值模型训练数据沿所述正横向插补方向依次按预设长度进行分割排序得到多组正横向插值模型训练序列,所述正横向插值模型训练序列的分割排序公式为:X
i
={x
i
,x
i+1
,

,x
i+k
|i∈[1,n
X

k]};
式中,X
i
表征为第i组正横向插值模型训练序列,x
i
,x
i+1
,x
i+k
分别表征为正横向插值模型训练数据中第i、i+1、i+k个数据,n
X
表征为正横向插值模型训练数据的数据总数目,i为计量常数,k表征为预设长度;将所述反横向插值模型训练数据沿所述反横向插补方向依次按预设长度进行分割排序得到多组反横向插值模型训练序列,所述反横向插值模型训练序列的分割排序公式为:式中,X

j
表征为j组反横向插值模型训练序列,分别表征为反横向插值模型训练数据中第n
X


j、n
X


j

1、n
X


j

k个数据,n
X

表征为反横向插值模型训练数据的数据总数目,j为计量常数,k表征为预设长度;将所述正纵向插值模型训练数据沿所述正纵向插补方向依次按预设长度进行分割排序得到多组正纵向插值模型训练序列,所述正纵向插值模型训练序列的分割排序公式为:Y
i
={y
i
,y
i+1
,

,y
i+k
|i∈[1,n
Y

k]};式中,Y
i
表征为第i组正纵向插值模型训练序列,y
i
,y
i+1
,y
i+k
分别表征为正纵向插值模型训练数据中第i、i+1、i+k个数据,n
Y
表征为正纵向插值模型训练数据的数据总数目,i为计量常数,k表征为预设长度;将所述反纵向插值模型训练数据沿所述反纵向插补方向依次按预设长度进行分割排序得到多组反纵向插值模型训练序列,所述反纵向插值模型训练序列的分割排序公式为:式中,Y

j
表征为j组反纵向插值模型训练序列,分别表征为反纵向插值模型训练数据中第n
Y


j、n
Y


j

1、n
Y


j

k个数据,n
Y

表征为反纵向插值模型训练数据的数据总数目,j为计量常数,k表征为预设长度。5.根据权利要求4所述的一种大数据分析中缺失数据混合多重插值方法,其特征在于:所述利用神经网络模型基于所述多组插值模型训练序列进行模型训练得到多组插值模型,包括:将多组正横向插值模型训练序列的X
i
={x
i
,x
i+1
,

,x
i+k
|i...

【专利技术属性】
技术研发人员:施成湘
申请(专利权)人:重庆第二师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1