缺失数据的恢复方法和装置制造方法及图纸

技术编号:17406761 阅读:43 留言:0更新日期:2018-03-07 04:42
本发明专利技术提供一种缺失数据的恢复方法和装置,以利用已知数据实现新增数据中缺失数据的恢复。所述缺失数据的恢复方法包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。

Recovery methods and devices for missing data

The present invention provides a recovery method and device for missing data to restore the missing data in the new data using known data. Including the recovery method of missing data: a set of data access to multiple sets of data and the new addition to multi group data; singular value decomposition or probabilistic matrix factorization numerical matrix composed of the plurality of data; the absence of a set of data the new position of data in a data set; decomposition or probability matrix using the singular value decomposition results and the new calculation of the reconstruction error about the loss of data; according to the reconstruction error minimization for missing data; and lack of data will be calculated by the lack of a set of data back to the new location of the data.

【技术实现步骤摘要】
缺失数据的恢复方法和装置
本专利技术涉及数据处理领域,更具体地,涉及缺失数据的恢复方法和装置。
技术介绍
在数据处理领域,一般都要求基于完整的数据来进行数据处理。以数据的压缩技术为例,分为无损压缩和有损压缩两大类,基于主成分分析(PCA:PrincipleComponentsAnalysis)的数据压缩算法是一种有损压缩算法,根据不同变量之间的线性相关性进行去冗余,从而实现数据降维和数据压缩。但是,目前的基于主成分分析的数据压缩算法,大多需要预先选取批量数据进行主成分分析,当新产生的数据不能被当前主成分很好地重构时,则需要进行主成分的更新。也就是说,在由于数据传输错误等原因引起数据不完整的情况下,无法进行主成分分析,一般只能通过去除不完整数据部分,再进行主成分分析计算。但是这种简单的处理方式可能会造成部分数据模态的丢失,使得生成的主成分不准确,从而造成较大的重构误差。此外,不仅是数据压缩技术,其他的数据处理技术也都存在这样的问题。
技术实现思路
本专利技术是鉴于以上问题而提出的,其目的在于提供能够利用已知数据实现新增数据中缺失数据的恢复的缺失数据的恢复方法和装置。根据本专利技术的一方面,提供一种缺失数据的恢复方法,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。根据本专利技术的另一方面,提供一种缺失数据的恢复装置,包括:数据获取单元,其获取多组数据和所述多组数据之外新增的一组数据;矩阵分解单元,其对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;缺失位置确定单元,其确定所述新增的一组数据中缺失的数据的位置;重构误差计算单元,其使用所述矩阵分解单元的矩阵分解结果和所述新增的一组数据计算关于缺失的数据的重构误差;缺失数据求取单元,其对所述重构误差计算单元的结果,根据重构误差最小化来求出缺失数据;以及数据恢复单元,其将所述缺失数据求取单元求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。根据本专利技术的另一方面,提供一种计算机可读介质,其存储有计算机程序,当所述计算机程序被处理器执行时实现上述的缺失数据的恢复方法的步骤。根据本专利技术的另一方面,提供一种计算机设备,包括:处理器;存储器,存储有能够在处理器上执行的计算机程序,当所述计算机程序被所述处理器执行时,实现上述的缺失数据的恢复方法的步骤。根据本专利技术,通过概率矩阵分解(ProbabilisticMatrixFactorization,PMF)利用已知部分的数据进行迭代计算,能够根据已知部分的数据对新增数据中缺失的数据进行有效的估计和恢复。这样,不会造成部分数据模态的丢失。附图说明图1示出根据本专利技术的实施方式一的缺失数据的恢复方法的流程图。图2示出根据本专利技术的实施方式二的缺失数据的恢复方法的流程图。图3示出根据本专利技术的实施方式三的缺失数据的恢复装置的框图。图4示出根据本专利技术的实施方式四的缺失数据的恢复装置的框图。具体实施方式以下,参照附图说明本专利技术的实施方式。在数据处理领域,往往会随着时间的推移而不断有新数据的产生,本专利技术就是针对新产生数据中缺失的数据的恢复方法。在本专利技术中,对于多组数据和多组数据之外新增的一组数据,通过利用概率矩阵分解进行分析,来实现新增数据中缺失的数据的恢复。此外,需要说明的是,在本专利技术中,多组数据是2组以上且各组分别包含多个数据的数据,所述多个数据的数据类型为数值型或能够转换为数值型的类型,进而每组数据的数据个数优选相同。再者,所述新增的一组数据与所述多组数据的数据类型和数据个数相同。实施方式一在本实施方式中,假定新增的数据中包含缺失的数据。图1示出根据本专利技术的实施方式一的缺失数据的恢复方法的流程图。参照图1,首先在步骤S110,获取多组数据和所述多组数据之外新增的一组数据。具体地,从数据源分别获取多组数据和所述多组数据之外新增的一组数据。在一个实施例中,该数据源是一个或多个监测设备,即在该步骤中从一个或多个监测设备按时间顺序获取多组监测数据,作为所述多组数据,并将其组成为对应的数值矩阵,之后从所述一个或多个监测设备获取一组新产生的监测数据,作为所述新增的一组数据。举简单例子来说,假设多组数据为下面的表1所示的SCADA(SupervisoryControlAndDataAcquisition,数据采集与监视控制)数据,则在本步骤中,从多个作为监测设备的传感器按时间顺序获取该多组数据,将其组成为表下方所示的数值矩阵,该矩阵的每一行代表一个时刻的SCADA数据,每一列表示一个传感器的测量结果。表1日期时间传感器1传感器2……传感器n2016/3/1515:25:360.50.20.92016/3/1515:25:450.40.20.52016/3/1515:25:520.10.30.72016/3/1515:25:580.90.40.22016/3/1515:26:060.20.00.1此外,假设在从多个传感器获取了上述表1的多组数据之后,后续又从该多个传感器获取了新增的一组数据,假设该新增的一组数据为一行带缺失值的数据[0.30.1...?],其中的“?”表示缺失值。上面的例子示出的是多组数据和新增的一组数据为SCADA数据且数据本身就是数值型数据的情况,但实际上,即使是SCADA数据,根据传感器数据类型的不同,也会包含数值型和枚举型两种类型,数值型又可分为整型和浮点型两种;枚举型又可分为布尔型和类别型两种。因此,为了能够进行新增数据中缺失数据的恢复,在步骤S110中,还根据需要对所述多组数据和新增的一组数据进行数据类型转换的预处理,即将非数值型变量转化为数值型变量,比如布尔型变量用0和1表示;然后将整型变量转化为浮点型变量,以便于进行数据恢复。上述数据类型转换过程在缺失数据的恢复后再将浮点型变量转换成原有的数据类型。此外,在本步骤中,除了上述数据类型转换,根据实际需要可能还要对多组数据和新增的一组数据进行归一化的预处理。以SCADA数据为例来说,数据归一化处理即将每个传感器的数据都线性变换到0~1范围之内,以防舍入误差对部分字段产生不同程度的影响。实际上,为了实现归一化,一般只要去均值化处理即可,即SCADA数据中每个传感器的数据都减去该传感器产生的全部数据的均值,对于SCADA数据以外的其他类型数据而言,就是将每一列的数据都减去该列的全部数据的均值。同样地,当缺失数据恢复后,归一化处理也要反过来进行,故应保存归一化过程中所使用的数据的均值、最大最小值等关键信息。需要说明的是,虽然上面示例示出的是SCADA数据的情况,但并不限于此,在本专利技术中,数据的来源可以多种多样,比如人的身高体重数据、经济增长数据等在时间上有关联的数据,另外也可以是在空间上有关联的数据,甚至也可以是彼此没有关联的数据等等。在步骤S120,对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解。在该步骤中,如果所述多组数据本身没有缺失值,则对该多组数据所组成的数值矩本文档来自技高网...
缺失数据的恢复方法和装置

【技术保护点】
一种缺失数据的恢复方法,其特征在于,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。

【技术特征摘要】
1.一种缺失数据的恢复方法,其特征在于,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。2.根据权利要求1所述的缺失数据的恢复方法,其特征在于,在对所述数值矩阵进行奇异值分解或概率矩阵分解的步骤中,在对所述数值矩阵进行概率矩阵分解时,对于所述数值矩阵求解第一因子矩阵和第二因子矩阵,将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述概率矩阵分解的结果。3.根据权利要求2所述的缺失数据的恢复方法,其特征在于,对于所述数值矩阵求解第一因子矩阵和第二因子矩阵具体包括,在所述数值矩阵的概率矩阵分解中求解这样的第一因子矩阵及第二因子矩阵,即该第一因子矩阵及第二因子矩阵最小化所述数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。4.根据权利要求1所述的缺失数据的恢复方法,其特征在于,在计算关于缺失的数据的重构误差的步骤中,以所述缺失的数据为未知量,计算所述缺失的数据与新矩阵乘以在所述奇异值分解或概率矩阵分解中得到的分解矩阵的积中的相应元素的差值作为所述重构误差,所述新矩阵是在所述多组数据的基础上加入所述新增的一组数据后组成的矩阵。5.根据权利要求4所述的缺失数据的恢复方法,其特征在于,在计算关于缺失的数据的重构误差的步骤中,根据下式,以所述缺失的数据为未知量来计算关于所述缺失的数据的重构误差:其中,矩阵A'为在所述多组数据的基础上加入所述新增的一组数据后组成的新矩阵,表示矩阵的第i行第j列的元素,矩阵Vk为在所述奇异值分解或概率矩阵分解中得到的分解矩阵,aij为矩阵A'中缺失的数据。6.根据权利要求1所述的缺失数据的恢复方法,其特征在于,还包括:将恢复了缺失的数据后的所述新增的一组数据与所述多组数据组合而形成更新后的多组数据;对所述更新后的多组数据所组成的更新后数值矩阵进行概率矩阵分解;以及利用所述更新后数值矩阵的概率矩阵分解的结果进行所述更新后的多组数据的压缩。7.根据权利要求6所述的缺失数据的恢复方法,其特征在于,在对所述更新后数值矩阵进行概率矩阵分解的步骤中,对于所述更新后数值矩阵求解第一因子矩阵和第二因子矩阵,将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述更新后数值矩阵的概率矩阵分解的结果。8.根据权利要求7所述的缺失数据的恢复方法,其特征在于,对于所述更新后数值矩阵求解第一因子矩阵和第二因子矩阵具体包括,在所述更新后数值矩阵的概率矩阵分解中求解这样的第一因子矩阵及第二因子矩阵,即该第一因子矩阵及第二因子矩阵最小化所述更新后数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。9.根据权利要求7或8所述的缺失数据的恢复方法,其特征在于,在所述压缩步骤中,将所述更新后数值矩阵的概率矩阵分解的结果与所述第二因子矩阵相乘,以得到压缩后的数据。10.根据权利要求9所述的缺失数据的恢复方法,其特征在于,将所述压缩后的数据与所述第二因子矩阵的共轭转置矩阵相乘,以得到解压缩后的数据。11.一种缺失数据的恢复装置,...

【专利技术属性】
技术研发人员:张光磊刘源邱忠营
申请(专利权)人:北京金风科创风电设备有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1