The present invention provides a recovery method and device for missing data to restore the missing data in the new data using known data. Including the recovery method of missing data: a set of data access to multiple sets of data and the new addition to multi group data; singular value decomposition or probabilistic matrix factorization numerical matrix composed of the plurality of data; the absence of a set of data the new position of data in a data set; decomposition or probability matrix using the singular value decomposition results and the new calculation of the reconstruction error about the loss of data; according to the reconstruction error minimization for missing data; and lack of data will be calculated by the lack of a set of data back to the new location of the data.
【技术实现步骤摘要】
缺失数据的恢复方法和装置
本专利技术涉及数据处理领域,更具体地,涉及缺失数据的恢复方法和装置。
技术介绍
在数据处理领域,一般都要求基于完整的数据来进行数据处理。以数据的压缩技术为例,分为无损压缩和有损压缩两大类,基于主成分分析(PCA:PrincipleComponentsAnalysis)的数据压缩算法是一种有损压缩算法,根据不同变量之间的线性相关性进行去冗余,从而实现数据降维和数据压缩。但是,目前的基于主成分分析的数据压缩算法,大多需要预先选取批量数据进行主成分分析,当新产生的数据不能被当前主成分很好地重构时,则需要进行主成分的更新。也就是说,在由于数据传输错误等原因引起数据不完整的情况下,无法进行主成分分析,一般只能通过去除不完整数据部分,再进行主成分分析计算。但是这种简单的处理方式可能会造成部分数据模态的丢失,使得生成的主成分不准确,从而造成较大的重构误差。此外,不仅是数据压缩技术,其他的数据处理技术也都存在这样的问题。
技术实现思路
本专利技术是鉴于以上问题而提出的,其目的在于提供能够利用已知数据实现新增数据中缺失数据的恢复的缺失数据的恢复方法和装置。根据本专利技术的一方面,提供一种缺失数据的恢复方法,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。根据本专利 ...
【技术保护点】
一种缺失数据的恢复方法,其特征在于,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。
【技术特征摘要】
1.一种缺失数据的恢复方法,其特征在于,包括:获取多组数据和所述多组数据之外新增的一组数据;对所述多组数据所组成的数值矩阵进行奇异值分解或概率矩阵分解;确定所述新增的一组数据中缺失的数据的位置;使用上述奇异值分解或概率矩阵分解的结果和所述新增的一组数据计算关于缺失的数据的重构误差;根据重构误差最小化来求出缺失数据;以及将所求出的缺失数据恢复到所述新增的一组数据中缺失的数据的位置。2.根据权利要求1所述的缺失数据的恢复方法,其特征在于,在对所述数值矩阵进行奇异值分解或概率矩阵分解的步骤中,在对所述数值矩阵进行概率矩阵分解时,对于所述数值矩阵求解第一因子矩阵和第二因子矩阵,将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述概率矩阵分解的结果。3.根据权利要求2所述的缺失数据的恢复方法,其特征在于,对于所述数值矩阵求解第一因子矩阵和第二因子矩阵具体包括,在所述数值矩阵的概率矩阵分解中求解这样的第一因子矩阵及第二因子矩阵,即该第一因子矩阵及第二因子矩阵最小化所述数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。4.根据权利要求1所述的缺失数据的恢复方法,其特征在于,在计算关于缺失的数据的重构误差的步骤中,以所述缺失的数据为未知量,计算所述缺失的数据与新矩阵乘以在所述奇异值分解或概率矩阵分解中得到的分解矩阵的积中的相应元素的差值作为所述重构误差,所述新矩阵是在所述多组数据的基础上加入所述新增的一组数据后组成的矩阵。5.根据权利要求4所述的缺失数据的恢复方法,其特征在于,在计算关于缺失的数据的重构误差的步骤中,根据下式,以所述缺失的数据为未知量来计算关于所述缺失的数据的重构误差:其中,矩阵A'为在所述多组数据的基础上加入所述新增的一组数据后组成的新矩阵,表示矩阵的第i行第j列的元素,矩阵Vk为在所述奇异值分解或概率矩阵分解中得到的分解矩阵,aij为矩阵A'中缺失的数据。6.根据权利要求1所述的缺失数据的恢复方法,其特征在于,还包括:将恢复了缺失的数据后的所述新增的一组数据与所述多组数据组合而形成更新后的多组数据;对所述更新后的多组数据所组成的更新后数值矩阵进行概率矩阵分解;以及利用所述更新后数值矩阵的概率矩阵分解的结果进行所述更新后的多组数据的压缩。7.根据权利要求6所述的缺失数据的恢复方法,其特征在于,在对所述更新后数值矩阵进行概率矩阵分解的步骤中,对于所述更新后数值矩阵求解第一因子矩阵和第二因子矩阵,将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述更新后数值矩阵的概率矩阵分解的结果。8.根据权利要求7所述的缺失数据的恢复方法,其特征在于,对于所述更新后数值矩阵求解第一因子矩阵和第二因子矩阵具体包括,在所述更新后数值矩阵的概率矩阵分解中求解这样的第一因子矩阵及第二因子矩阵,即该第一因子矩阵及第二因子矩阵最小化所述更新后数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。9.根据权利要求7或8所述的缺失数据的恢复方法,其特征在于,在所述压缩步骤中,将所述更新后数值矩阵的概率矩阵分解的结果与所述第二因子矩阵相乘,以得到压缩后的数据。10.根据权利要求9所述的缺失数据的恢复方法,其特征在于,将所述压缩后的数据与所述第二因子矩阵的共轭转置矩阵相乘,以得到解压缩后的数据。11.一种缺失数据的恢复装置,...
【专利技术属性】
技术研发人员:张光磊,刘源,邱忠营,
申请(专利权)人:北京金风科创风电设备有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。