基于改进马尔可夫模型和改进K最近邻的缺失值填补方法技术

技术编号:24574814 阅读:52 留言:0更新日期:2020-06-21 00:13
本发明专利技术涉及数据处理技术领域,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,包括以下步骤:A)根据数据的最小值v

Missing value filling method based on Improved Markov model and improved k nearest neighbor

【技术实现步骤摘要】
基于改进马尔可夫模型和改进K最近邻的缺失值填补方法
本专利技术涉及数据处理
,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法。
技术介绍
在数据分析过程中,往往需要面对因数据存在一定的缺失而无法准确挖掘数据价值的情况。尤其是工业设备的监测数据,经常受到恶劣环境、误操作、传感器故障、数据传输中断等情况的影响而导致采集的数据中存在大量的缺失值。数据缺失会破坏设备监测数据时间序列的连续性,特别是连续的缺失值,在一定程度上改变数据的特征和变化趋势,导致无法准确分析设备的健康状态和诊断设备故障。因此需要选择一种可有效填充缺失值的方法。如中国专利CN107273429A,公开日2017年10月20日,提出一种基于深度学习的缺失值填充方法及系统,包括以下步骤:步骤1,对数据集进行预处理,将所述数据集分为完整数据子集和缺失数据子集,将所述完整数据子集中的数据分为训练样本集和测试样本集,随机删除测试样本集中部分数据作为缺失测试样本集;步骤2,利用训练样本集对初步构建的卷积神经网络进行训练并保存,使用训练后得到的卷积神经网络对缺失测试样本集进行缺失值填充,并不断调整所述卷积神经网络的网络结构和迭代前述训练和验证步骤以满足精度要求;步骤3,将所述完整数据子集输入步骤(2)得到的卷积神经网络,得到完善的卷积神经网络;步骤4,将所述缺失数据子集输入步骤(3)得到的完善的卷积神经网络完成缺失值的填充。其缺失值填补方法的缺点在于:1、卷积神经网络需要一定的样本进行多次训练才能满足精度要求,在一些场景下并不适合;2、对数据缺失率较高时的处理效果并不理想。
技术实现思路
本专利技术要解决的技术问题是:现有技术中的数据补全技术没有充分考虑数据波动及时间序列的技术问题。提出了一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法。本专利技术能够充分考虑数据的整体性和局部分布,使得填补的数据能够追踪数据的变化趋势并在较低的误差范围内。为解决上述技术问题,本专利技术所采取的技术方案为:基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,包括以下步骤:A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;D)对Tm和Tk加权求和得到最终的填补值T。本专利技术通过改进马尔可夫模型和改进K最近邻方法分别得到可能的填补值,并通过加权求和得到最终的填补值,一方面可反映数据的整体分布和变化趋势,另一方面又保留了缺失值附近的局部特征。采用改进马尔可夫模型和改进K最近邻方法联合填补缺失值,具有一定的鲁棒性和准确性。作为优选,步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1;B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态i作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2;B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm。作为优选,步骤B5)中,所述升半岭形隶属函数为:其中,dmax为数据各状态出现次数的最大差值,dmin为数据各状态出现次数的最小差值,x为状态i和j出现次数num_i和num_j的次数之差;填补值T1、T2匹配权重系数ω1、ω2分别为:作为优选,步骤C)中,采用改进K最近邻方法得到缺失值的可能填补值Tk包括:C1)假设正向时间序列的第k个数为缺失值,以第(k-1)个数为初始点,在第k个数之前的n个数据中选择k个与第(k-1)个数欧氏距离最小的数的均值作为填补值T1,选择第k个数后首个不为缺失值的第m个数为初始点,在第k个数之后的n个数据中选择k个与第m个数欧氏距离最小的数的均值作为填补值T2;C2)以降半岭形隶属度函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tk。作为优选,步骤C2)中,降半岭形隶属度函数为:其中,r为人工设定的可接受的缺失值最大连续出现次数,x为缺失值连续出现的次数,填补值T1的权重系数ω1=1-μ(x),T2的权重系数ω2=μ(x)。作为优选,步骤D)中,对Tm和Tk加权求和得到最终的填补值T的方法为:若时间序列上缺失值附近2n个数的局部缺失率超过设定阈值,则以降半岭形隶属度函数为填补值Tm和Tk匹配权重系数,加权求和得到填补值T。作为优选,步骤D)中,降半岭形隶属度函数为:其中,l为缺失值附近2n个数中可接受的缺失值个数,x为缺失值的个数。因此,填补值Tm的权重系数ω1=1-μ(x),填补值Tk的权重系数ω2=μ(x)。本专利技术的实质性效果是:将数据划分为n个状态区间,结合正向状态转移矩阵和反向状态转移矩阵,充分考虑数据的整体性和波动趋势,提高了对波动性较强、规律性较弱的时间序列数据的缺失的补全精确度。附图说明图1为实施例一缺失值填补方法流程框图。图2为实施例一缺失率为10%时的时间序列数据示意图。图3为实施例一缺失值补全后的时间序列数据示意图。具体实施方式下面通过具体实施例,并结合附图,对本专利技术的具体实施方式作进一步具体说明。实施例一:基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,如图1所示,本实施例包括以下步骤:A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;D)对Tm和Tk加权求和得到最终的填补值T。n的值由人工设定,本文档来自技高网
...

【技术保护点】
1.基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,包括以下步骤:/nA)根据数据的最小值v

【技术特征摘要】
1.基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,包括以下步骤:
A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;
B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;
C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;
D)对Tm和Tk加权求和得到最终的填补值T。


2.根据权利要求1所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:
B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,



B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;
B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1;
B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2;
B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm。


3.根据权利要求2所述的基于改进马尔可夫模型和...

【专利技术属性】
技术研发人员:杨皓杰杨雨李倩孙丰诚
申请(专利权)人:杭州安脉盛智能技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1