一种大数据分析中缺失数据混合多重插值的装置和方法制造方法及图纸

技术编号:16427887 阅读:63 留言:0更新日期:2017-10-21 22:44
本发明专利技术公开了一种大数据分析中缺失数据混合多重插值的装置和方法,以深度神经网络为基础模型,结合数据驱动的多阶段、多模型混合缺失数据填补方法,该模型鲁棒性更高,填补结果更准确,可以填补大数据分析中由于各种数据缺失模型而引起的不完整数据,本混合填补模型可控在数据缺失率15%以下,平均填补准确率在89%~99.95%之间。一种大数据分析中缺失数据混合多重插值的装置包括数据预处理模块、模型训练模块和数据填补模块;一种大数据分析中缺失数据混合多重插值的方法包括数据预处理、模型训练和数据填补。

A device and method for missing data mixed multiple interpolation in large data analysis

The invention discloses a device and a method for data analysis of missing data in multiple mixed interpolation, with the depth of the neural network based model, combined with multi stage, data driven multi model mixed missing data imputation method, this model is more robust, more accurate results can fill, fill the incomplete data due to a variety of the missing data model in data analysis, the hybrid model to fill in the missing data rate controlled below 15%, the average accuracy rate between 89%~99.95% fill. A device for large data analysis of missing data mixed multiple interpolation including data preprocessing module, model training module and data fill module; method of data analysis for missing data of multiple mixed interpolation includes data preprocessing, model training and data fill.

【技术实现步骤摘要】
一种大数据分析中缺失数据混合多重插值的装置和方法
本专利技术涉及一种混合多重插值装置和方法,具体涉及一种大数据分析中缺失数据混合多重插值的装置和方法。
技术介绍
目前,人们进入一个全新的大数据时代,大数据在越来越多的领域中都有着重要的影响,同时对数据的质量要求也越来越高。由于数据量级不断的增大,数据质量和数据可用性问题也随着不断增加,例如数据缺失、数据冗余等,数据量越大,数据质量问题也就越严重,从而对大数据的应用和分析将带来影响和误差。如何解决数据缺失,剔除掉缺失数据对大数据分析的影响,这是保证大数据分析下原始数据质量至关重要的问题。大数据中不可忽视的问题就是存在数据不完整的情况,这类数据称之为缺失数据。缺失数据存在三种缺失机制,完全随机缺失,随机缺失和非随机缺失。完全随机缺失表示数据的丢失是随机性的,它的缺失与数据集中任何属性变量都无关;然而随机缺失表示数据的缺失与其他属性变量有一定联系,与其自身的属性变量没有关系;非随机缺失表示数据的缺失只有自身的属性变量存在联系。除此之外,数据本身的缺失情况也分为单一缺失和任意缺失两种模式,其中单一缺失表示数据的一个属性其值缺失以后,该属性随后的所有属性的直接都将缺失,而任意缺失就是完全意义上的值随意缺失。因此,通过分析大数据下缺失数据的机制以及模式,需要对缺失数据进行处理,以保证减少大数据下各种研究应用受到原始数据质量问题影响。为了减少解决数据缺失,常常采用列表删除法或数据填补法。列表删除法虽然简便但是可能造成数据信息量的丢失,因此数据填补法更加常用。在数据填补法中,平均插补、虚拟变量法、单一回归,多重插补、马尔科夫链插补、深度置信网络插补、数据驱动插补等。由于大数据下缺失数据的复杂性以及数量巨大化,如果用传统的平均插补、单一回归这类插补方式,希望通过建模预估出一个缺失值从而进行插补,这将可能降低缺失数据的可变性并且单一的值可能存在过度拟合以及具有偏差的估计。多重插补的出现,解决了这一问题,多重插补不只生成一个单一的值对缺失值进行插补,它会生成许多后备值,通过这些后备值分析计算得到该个缺失值的分布,从而从这个分布中进行随机抽样对缺失值进行填补,但是多重插补得到后备值得方法还是才是回归,马尔科夫链等,因此插补数据的准确性还有待提升。近期,数据插补领域提出采用深度神经网络技术进行缺失数据插补。由于深度神经网络不需要精确的数学模型,非线性映射能力好,擅长从输入输出数据中学习有用的知识,揭示数据特征,处理随机因素。通过对深度神经网络充分的训练,利用深度神经网络自组织优化建模的能力,不断的以训练数据进行自组织优化,从而形成最优的提取原始数据特征的模型,将提取的特征基于数据驱动,多重插值等方式建模,从而提升插补数据的精度。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种本专利技术的目的在于改进现有大数据下缺失数据插补的准确性,提供一种能有效提高插补准确率,并且数据缺失率保持在15%以下,平均填补准确率在89%~99.95%之内的大数据分析中缺失数据混合多重插值装置和方法。本专利技术的目的是通过以下技术方案来实现的,一种大数据分析中缺失数据混合多重插值的装置,该装置包括以下模块:模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。一种大数据分析中缺失数据混合多重插值的装置还包括数据预处理模块,所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。所述的预处理模块通过加载原始数据,同时对原始数据进行分类,得到完整数据集和不完整数据集;再通过对完整数据集采样得到训练数据集,并对训练数据集进行归一化处理;最后对训练数据集进行模拟缺失,缺失数据形成目标数据集合,得到用于训练模型的输入和输出数据集合。所述的模型训练模块包括以下子模块:数据特征向量提取模块和目标训练模块,其中所述的目标训练模块包括以下子模块:单一缺失模式训练模型和任意缺失模型。所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数,缺失数据的预估为输出的混合多重插值模型。所述的模型训练模块是根据预处理获得的输入数据,利用深度信念网络提取出原数据特征,并在深度信念网络训练中加入干扰因子,提升网络鲁棒性;然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合,系统根据缺失数据分为单一缺失和任意缺失模型数据集,采用不同的模型训练策略;若数据集为单一缺失模型数据集,将加入随机扰动因子的原数据特征作为输入,进行多元回归模型训练,得到针对单一缺失模型的特征回归插值模型,并将训练得到的权重和偏置储存起来;若数据集为任意缺失模型数据集,将加入干燥因子的原数据特征作为特征字典,通过K-Means将特征字典划分为K个聚类,并存储聚类的K个聚类中心用于实际插补使用,从而得到针对任意缺失模型的特征驱动插值模型。一种大数据分析中缺失数据混合多重插值的方法,该方法包括以下步骤:S1:数据预处理,加载分析原始数据并对数据进行归一化处理;S2:提取数据集特征;S3:数据插补,通过反复插补过程得到数据插补值。所述的数据预处理包括以下子步骤:S11:加载原始数据,同时对原始数据进行分类,得到完整数据集和不完整数据集;S12:通过对完整数据集采样得到训练数据集,并对训练数据集进行归一化处理;S13:对训练数据集进行模拟缺失,缺失数据形成目标数据集合,得到用于训练模型的输入和输出数据集合。所述的提取数据集特征,将训练数据集分为单一缺失模型数据集和任意缺失模型数据集,将数据带入已经训练好的具有稳定的单元变量干燥因子、扰动因子、权重和偏置的稳定深度信念网络中,提取数据特征,为数据集插补做准备。所述的数据插补包括以下子步骤:S31:若数据集为单一缺失模型数据集,将特征值代入特征回归插值模型,得到插补值;S32:若数据集为任意缺失模型数据集,采用特征驱动的方式进行插补,根据特征值计算与K个聚类中心距离,距离最近的聚类集,并计算特征值和该聚类集中每条特征的聚类,选取最近的K条特征,通过K条特征原始数据与对于权重想成得到任意缺失模式下的插补数据;S33:将插补过程重复多次并求平均,最终得到大数据中缺失数据的混合多重插值的数据插补。本专利技术的有益效果是:1)基于深度信念网络模型构建多层次、多模型缺失数据插补方法,所构建的模型能够稳定良好提取原始数据特征,从而很好的对大量原始数据中冗余或无关数据进行简化,使模型拟合度更高,插补结果更准确。2)通过训练多种缺失概率和缺失模式下的深度信念网络,并通过网络提取数据特征,基于多重差值和数据驱动的方式利用数特征,对大数据下缺失数据进行插值,能够有效添补大数据应用中由于各类原因造成的数据缺失,并且数据缺失率15%以下平均填补准确率可控在89%~99.95%之内。附图说明图1为一种大数据分析中缺失数据混合多重插值的装置框架图;图2为混合多重插值模型训练过程中数据预处理流程图;图3为数据真实插补过程中数据预处理流程图;图4为一种大数据分析中缺失数据混合多重插值模型训练方法流本文档来自技高网
...
一种大数据分析中缺失数据混合多重插值的装置和方法

【技术保护点】
一种大数据分析中缺失数据混合多重插值的装置,其特征在于,该装置包括以下模块:模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。

【技术特征摘要】
1.一种大数据分析中缺失数据混合多重插值的装置,其特征在于,该装置包括以下模块:模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。2.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,还包括数据预处理模块,所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。3.根据权利要求2所述的数据预处理模块,其特征在于,所述的预处理模块通过加载原始数据,同时对原始数据进行分类,得到完整数据集和不完整数据集;再通过对完整数据集采样得到训练数据集,并对训练数据集进行归一化处理;最后对训练数据集进行模拟缺失,缺失数据形成目标数据集合,得到用于训练模型的输入和输出数据集合。4.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块包括以下子模块:数据特征向量提取模块和目标训练模块,其中所述的目标训练模块包括以下子模块:单一缺失模式训练模型和任意缺失模型;所述的数据特征向量提取模块,用于提取数据的特征向量;所述的目标训练模块,用于利用提取的数据特征向量训练得到缺失数据填充模型。5.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数,缺失数据的预估为输出的混合多重插值模型。6.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于,所述的模型训练模块,根据预处理获得的输入数据,利用深度信念网络提取出原数据特征,并在深度信念网络训练中加入干扰因子,提升网络鲁棒性;然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合,系统根据缺失数据分为单一缺失和任意缺失模型数据集,采用不同的模型训...

【专利技术属性】
技术研发人员:林劼钟德建李年华马骏周正斌
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1