The invention discloses a device and a method for data analysis of missing data in multiple mixed interpolation, with the depth of the neural network based model, combined with multi stage, data driven multi model mixed missing data imputation method, this model is more robust, more accurate results can fill, fill the incomplete data due to a variety of the missing data model in data analysis, the hybrid model to fill in the missing data rate controlled below 15%, the average accuracy rate between 89%~99.95% fill. A device for large data analysis of missing data mixed multiple interpolation including data preprocessing module, model training module and data fill module; method of data analysis for missing data of multiple mixed interpolation includes data preprocessing, model training and data fill.
【技术实现步骤摘要】
一种大数据分析中缺失数据混合多重插值的装置和方法
本专利技术涉及一种混合多重插值装置和方法,具体涉及一种大数据分析中缺失数据混合多重插值的装置和方法。
技术介绍
目前,人们进入一个全新的大数据时代,大数据在越来越多的领域中都有着重要的影响,同时对数据的质量要求也越来越高。由于数据量级不断的增大,数据质量和数据可用性问题也随着不断增加,例如数据缺失、数据冗余等,数据量越大,数据质量问题也就越严重,从而对大数据的应用和分析将带来影响和误差。如何解决数据缺失,剔除掉缺失数据对大数据分析的影响,这是保证大数据分析下原始数据质量至关重要的问题。大数据中不可忽视的问题就是存在数据不完整的情况,这类数据称之为缺失数据。缺失数据存在三种缺失机制,完全随机缺失,随机缺失和非随机缺失。完全随机缺失表示数据的丢失是随机性的,它的缺失与数据集中任何属性变量都无关;然而随机缺失表示数据的缺失与其他属性变量有一定联系,与其自身的属性变量没有关系;非随机缺失表示数据的缺失只有自身的属性变量存在联系。除此之外,数据本身的缺失情况也分为单一缺失和任意缺失两种模式,其中单一缺失表示数据的一个属性其值缺失以后,该属性随后的所有属性的直接都将缺失,而任意缺失就是完全意义上的值随意缺失。因此,通过分析大数据下缺失数据的机制以及模式,需要对缺失数据进行处理,以保证减少大数据下各种研究应用受到原始数据质量问题影响。为了减少解决数据缺失,常常采用列表删除法或数据填补法。列表删除法虽然简便但是可能造成数据信息量的丢失,因此数据填补法更加常用。在数据填补法中,平均插补、虚拟变量法、单一回归,多重插补、马尔科 ...
【技术保护点】
一种大数据分析中缺失数据混合多重插值的装置,其特征在于,该装置包括以下模块:模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。
【技术特征摘要】
1.一种大数据分析中缺失数据混合多重插值的装置,其特征在于,该装置包括以下模块:模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。2.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,还包括数据预处理模块,所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。3.根据权利要求2所述的数据预处理模块,其特征在于,所述的预处理模块通过加载原始数据,同时对原始数据进行分类,得到完整数据集和不完整数据集;再通过对完整数据集采样得到训练数据集,并对训练数据集进行归一化处理;最后对训练数据集进行模拟缺失,缺失数据形成目标数据集合,得到用于训练模型的输入和输出数据集合。4.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块包括以下子模块:数据特征向量提取模块和目标训练模块,其中所述的目标训练模块包括以下子模块:单一缺失模式训练模型和任意缺失模型;所述的数据特征向量提取模块,用于提取数据的特征向量;所述的目标训练模块,用于利用提取的数据特征向量训练得到缺失数据填充模型。5.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数,缺失数据的预估为输出的混合多重插值模型。6.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块,根据预处理获得的输入数据,利用深度信念网络提取出原数据特征,并在深度信念网络训练中加入干扰因子,提升网络鲁棒性;然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合,系统根据缺失数据分为单一缺失和任意缺失模型数据集,采用不同的模型训...
【专利技术属性】
技术研发人员:林劼,钟德建,李年华,马骏,周正斌,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。