一种大数据分析中缺失数据混合多重插值的装置和方法制造方法及图纸

技术编号：16427887 阅读：63 留言：0更新日期：2017-10-21 22:44

本发明专利技术公开了一种大数据分析中缺失数据混合多重插值的装置和方法，以深度神经网络为基础模型，结合数据驱动的多阶段、多模型混合缺失数据填补方法，该模型鲁棒性更高，填补结果更准确，可以填补大数据分析中由于各种数据缺失模型而引起的不完整数据，本混合填补模型可控在数据缺失率15%以下，平均填补准确率在89%~99.95%之间。一种大数据分析中缺失数据混合多重插值的装置包括数据预处理模块、模型训练模块和数据填补模块；一种大数据分析中缺失数据混合多重插值的方法包括数据预处理、模型训练和数据填补。

A device and method for missing data mixed multiple interpolation in large data analysis

The invention discloses a device and a method for data analysis of missing data in multiple mixed interpolation, with the depth of the neural network based model, combined with multi stage, data driven multi model mixed missing data imputation method, this model is more robust, more accurate results can fill, fill the incomplete data due to a variety of the missing data model in data analysis, the hybrid model to fill in the missing data rate controlled below 15%, the average accuracy rate between 89%~99.95% fill. A device for large data analysis of missing data mixed multiple interpolation including data preprocessing module, model training module and data fill module; method of data analysis for missing data of multiple mixed interpolation includes data preprocessing, model training and data fill.

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据分析中缺失数据混合多重插值的装置和方法
本专利技术涉及一种混合多重插值装置和方法，具体涉及一种大数据分析中缺失数据混合多重插值的装置和方法。
技术介绍
目前，人们进入一个全新的大数据时代，大数据在越来越多的领域中都有着重要的影响，同时对数据的质量要求也越来越高。由于数据量级不断的增大，数据质量和数据可用性问题也随着不断增加，例如数据缺失、数据冗余等，数据量越大，数据质量问题也就越严重，从而对大数据的应用和分析将带来影响和误差。如何解决数据缺失，剔除掉缺失数据对大数据分析的影响，这是保证大数据分析下原始数据质量至关重要的问题。大数据中不可忽视的问题就是存在数据不完整的情况，这类数据称之为缺失数据。缺失数据存在三种缺失机制，完全随机缺失，随机缺失和非随机缺失。完全随机缺失表示数据的丢失是随机性的，它的缺失与数据集中任何属性变量都无关；然而随机缺失表示数据的缺失与其他属性变量有一定联系，与其自身的属性变量没有关系；非随机缺失表示数据的缺失只有自身的属性变量存在联系。除此之外，数据本身的缺失情况也分为单一缺失和任意缺失两种模式，其中单一缺失表示数据的一个属性其值缺失以后，该属性随后的所有属性的直接都将缺失，而任意缺失就是完全意义上的值随意缺失。因此，通过分析大数据下缺失数据的机制以及模式，需要对缺失数据进行处理，以保证减少大数据下各种研究应用受到原始数据质量问题影响。为了减少解决数据缺失，常常采用列表删除法或数据填补法。列表删除法虽然简便但是可能造成数据信息量的丢失，因此数据填补法更加常用。在数据填补法中，平均插补、虚拟变量法、单一回归，多重插补、马尔科...
一种大数据分析中缺失数据混合多重插值的装置和方法

【技术保护点】
一种大数据分析中缺失数据混合多重插值的装置，其特征在于，该装置包括以下模块：模型训练模块，根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数，缺失数据的预估为输出的混合多重插值模型；缺失数据插补模块，将训练模块中得到的特征向量输入到缺失数据填充模型中，得到缺失数据预估值，将缺失数据预估值填补到原始数据，得到完整数据。

【技术特征摘要】
1.一种大数据分析中缺失数据混合多重插值的装置，其特征在于，该装置包括以下模块：模型训练模块，根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数，缺失数据的预估为输出的混合多重插值模型；缺失数据插补模块，将训练模块中得到的特征向量输入到缺失数据填充模型中，得到缺失数据预估值，将缺失数据预估值填补到原始数据，得到完整数据。2.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，还包括数据预处理模块，所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。3.根据权利要求2所述的数据预处理模块，其特征在于，所述的预处理模块通过加载原始数据，同时对原始数据进行分类，得到完整数据集和不完整数据集；再通过对完整数据集采样得到训练数据集，并对训练数据集进行归一化处理；最后对训练数据集进行模拟缺失，缺失数据形成目标数据集合，得到用于训练模型的输入和输出数据集合。4.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，所述的模型训练模块包括以下子模块：数据特征向量提取模块和目标训练模块，其中所述的目标训练模块包括以下子模块：单一缺失模式训练模型和任意缺失模型；所述的数据特征向量提取模块，用于提取数据的特征向量；所述的目标训练模块，用于利用提取的数据特征向量训练得到缺失数据填充模型。5.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置，其特征在于，所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数，缺失数据的预估为输出的混合多重插值模型。6.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，所述的模型训练模块，根据预处理获得的输入数据，利用深度信念网络提取出原数据特征，并在深度信念网络训练中加入干扰因子，提升网络鲁棒性；然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合，系统根据缺失数据分为单一缺失和任意缺失模型数据集，采用不同的模型训...

【专利技术属性】
技术研发人员：林劼，钟德建，李年华，马骏，周正斌，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人