基于改进马尔可夫模型和改进K最近邻的缺失值填补方法技术

技术编号:24574814 阅读:55 留言:0更新日期:2020-06-21 00:13
本发明专利技术涉及数据处理技术领域,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,包括以下步骤:A)根据数据的最小值v

Missing value filling method based on Improved Markov model and improved k nearest neighbor

【技术实现步骤摘要】
基于改进马尔可夫模型和改进K最近邻的缺失值填补方法
本专利技术涉及数据处理
,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法。
技术介绍
在数据分析过程中,往往需要面对因数据存在一定的缺失而无法准确挖掘数据价值的情况。尤其是工业设备的监测数据,经常受到恶劣环境、误操作、传感器故障、数据传输中断等情况的影响而导致采集的数据中存在大量的缺失值。数据缺失会破坏设备监测数据时间序列的连续性,特别是连续的缺失值,在一定程度上改变数据的特征和变化趋势,导致无法准确分析设备的健康状态和诊断设备故障。因此需要选择一种可有效填充缺失值的方法。如中国专利CN107273429A,公开日2017年10月20日,提出一种基于深度学习的缺失值填充方法及系统,包括以下步骤:步骤1,对数据集进行预处理,将所述数据集分为完整数据子集和缺失数据子集,将所述完整数据子集中的数据分为训练样本集和测试样本集,随机删除测试样本集中部分数据作为缺失测试样本集;步骤2,利用训练样本集对初步构建的卷积神经网络进行训练并保存,使用训练后得到的卷积神经网络对缺失测试本文档来自技高网...

【技术保护点】
1.基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,包括以下步骤:/nA)根据数据的最小值v

【技术特征摘要】
1.基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,包括以下步骤:
A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;
B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;
C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;
D)对Tm和Tk加权求和得到最终的填补值T。


2.根据权利要求1所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:
B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,



B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;
B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1;
B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2;
B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm。


3.根据权利要求2所述的基于改进马尔可夫模型和...

【专利技术属性】
技术研发人员:杨皓杰杨雨李倩孙丰诚
申请(专利权)人:杭州安脉盛智能技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1