本发明专利技术属于数据挖掘技术领域,本发明专利技术结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。
【技术实现步骤摘要】
一种工业数据增补方法
本专利技术属于数据挖掘
,特别是涉及一种基于期望最大化和聚类分析的数据增补方法。
技术介绍
随着计算机技术的发展以及自动化水平的提高,数据的存取速度不断增快,随之而来出现了大量的数据缺失。近年来,数据挖掘技术在各行各业得到了广泛的应用,为商业智能提供了辅助决策的能力。但在对实际环境的调查中发现,信息系统是不完备的,或者说存在某种程度上的不完备,从而导致工业数据存在缺失的现象。在实际的工业系统运营中,数据缺失的现象大量存在,而造成数据不完备的原因多种多样,可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障或者其他一些人为因素等等。处理缺失数据的方法有很多种而且各有其优缺点,最简单的方法就是删除含缺失值的记录,这种方法比较突兀,针对电力系统中的关键数据此方法不适用。另外就是为缺失值确定一个合理的估计值替换缺失的部分,称之为数据增补方法。在增补数据时,主要常用以下方法:期望最大化算法简单易用,但是与历史数据关联不紧密,丧失了前后数据的关联性,从而导致估算数据与历史数据不吻合,而且算法收敛的进程相当慢;灰色聚类分析增强了数据的关联性,但是其反复迭代后无法保证的数据准确性。一种基于期望最大化和聚类分析的缺失数据增补技术,结合了期望最大化算法简单易用和聚类高关联度的特性,通过二者的综合加快了算法的收敛速度,增强了缺失数据与完整数据的紧密程度,提高了增补数据的精确度。本专利技术正是为了实现一种高效的数据增补技术而开发实现的。
技术实现思路
为解决上述问题,本专利技术旨在提供一种基于期望最大化和聚类分析的数据增补技术,该技术在工业数据缺失的情况下,保证了增补数据的收敛速度、与历史数据的紧密度以及增补数据的精确度。本专利技术所针对的数据是工业生产中产生的缺失数据,此类缺失数据与真实历史数据具有较强的相关性、相似性,因此在使用本专利技术前,应存在一定量的历史数据。本专利技术采用方法为:步骤A:确定参照序列、缺失序列。记序列Pi=(Si1,Si2,Si3,…,Sin)为完整的参照序列,记序列qj′=(Dj1,Dj2,…,Djm,Dj(m+k),…,Djn)为缺失序列,其中(k>1,m<n);步骤B:初始化序列。调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列Si1,Si2,…,Sim,Si(m+k),…,Sin,记为pi′。序列Si1-Si1,Si2-Si1,…,Sim-Si1,Si(m+k)-Si1,…,Sin-Si1称为序列pi′的始点零化像,记为步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积spi,临时参照序列的面积spi′,缺失序列的面积sqj′;计算序列1与序列i之间的灰色关联度,记ε1i为序列1与序列i之间的相似程度,计算所有参照序列pi′之间以及pi′与缺失序列qj′之间的相似程度,将所有的参照序列组合成上三角矩阵;根据临界值r对所有的εij进行聚类分析,将所有的序列按照聚类划分;进行灰色关联分析,确定与缺失序列相似程度较高的不完整参照序列集合并恢复为完整的参照序列,做均值化处理,得出唯一的均值完整参照序列AVG0,记录完整参照序列集合中对应缺失数据位置的最大值max_value和最小值min_value;步骤D:计算缺失数据;根据EM算法利用缺失数据的序列qj′计算出要被估计的参数θ;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列AVG0进行关联度分析得到εn,取εn的极大值εmax对应的数据作为最终的增补数据。本专利技术方法的有益效果是,可以在具有历史数据的条件下,缩短了估算周期,提高了估算的精度,提高了缺失数据的估算效率。本专利技术结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。附图说明图1是基于期望最大化和聚类分析的数据增补技术的流程图。具体实施方式本专利技术具体实施例如下:其中方案流程图如附图1所示。该技术方案包括如下步骤:步骤A:确定参照序列、缺失序列。记序列Pi=(Si1,Si2,Si3,…,Sin)为完整的参照序列,记序列qj′=(Dj1,Dj2,…,Djm,Dj(m+k),…,Djn)为缺失序列,其中(k>1,m<n);步骤B:初始化序列。由于完整的参照序列和缺失序列中元素的个数不同,无法进行下一步的估算,因此调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列Si1,Si2,…,Sim,Si(m+k),…,Sin,记为pi′。序列Si1-Si1,Si2-Si1,…,Sim-Si1,Si(m+k)-Si1,…,Sin-Si1称为序列pi′的始点零化像,记为步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类。首先根据公式计算出序列的面积spi临时参照序列与缺失序列的面积可用同样的方法计算得出。然后计算序列1与序列i之间的灰色关联度,记ε1i为序列1与序列i之间的相似程度,计算方法如下所示:同理可以计算出所有参照序列pi′之间以及与缺失序列qj′之间的相似程度,将所有的参照序列组合成上三角矩阵。最后根据临界值r对所有的εij进行聚类分析,将所有的序列分成若干聚类。经过灰色关联分析,可以确定与缺失序列相似程度较高的不完整参照序列集合,将这个不完整参照序列的集合恢复为完整的参照序列,并做均值化处理,得出唯一的均值完整参照序列AVG0,同时记录下完整参照序列集合中对应缺失数据位置的最大值max_value和最小值min_value。步骤D:计算缺失数据。首先根据EM算法利用缺失数据的序列qj′计算出要被估计的参数θ;然后可以利用之前得出的最大值max_value和最小值min_value缩小范围,由于缺失数据的序列与相似的序列在同一聚类中,因此缺失的数据必定在最大值max_value和最小值min_value之间。将最小值min_value增补到缺失数据的序列中形成临时的完整序列,并计算完整数据的对数似然函数的期望值。再极大化对数似然函数以确定参数的值,经过反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。将缺失数据初步估计值逐一代入缺失数据的序列中,并与之前计算出的均值完整参照序列AVG0进行关联度分析得到εn,取其中的极大值εmax对应的数据作为最终的增补数据。本专利技术按照优选实施例进行了说明,应当理解,但上述实施例不以任何形式限定本专利技术,凡采用等同替换或等效变换的形式所获得的技术方案,均落在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
一种工业数据增补方法,其特征在于包括如下步骤:步骤A:确定参照序列、缺失序列;记序列????????????????????????????????????????????????为完整的参照序列,记序列为缺失序列,其中;步骤B:初始化序列;调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列,记为;序列称为序列的始点零化像,记为;步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积,临时参照序列的面积,缺失序列的面积;计算序列1与序列i之间的灰色关联度,记为序列1与序列i之间的相似程度,?计算所有参照序列之间以及与缺失序列之间的相似程度,将所有的参照序列组合成上三角矩阵;根据临界值r对所有的进行聚类分析,将所有的序列按照聚类划分;进行灰色关联分析,确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列,做均值化处理,得出唯一的均值完整参照序列,记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value;步骤D:计算缺失数据;根据EM算法利用缺失数据的序列计算出要被估计的参数;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值;将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列进行关联度分析得到,取的极大值对应的数据作为最终的增补数据。201110286150X100001dest_path_image001.jpg,503952dest_path_image002.jpg,201110286150X100001dest_path_image003.jpg,805752dest_path_image004.jpg,201110286150X100001dest_path_image005.jpg,870660dest_path_image006.jpg,201110286150X100001dest_path_image007.jpg,207094dest_path_image008.jpg,201110286150X100001dest_path_image009.jpg,433676dest_path_image010.jpg,201110286150X100001dest_path_image011.jpg,675302dest_path_image012.jpg,dest_path_image013.jpg,26124dest_path_image013.jpg,466333dest_path_image014.jpg,dest_path_image015.jpg,67078dest_path_image016.jpg,343470dest_path_image014.jpg,dest_path_image017.jpg,750180dest_path_image018.jpg,dest_path_image019.jpg,248158dest_path_image019.jpg,567275dest_path_image020.jpg...
【技术特征摘要】
1.一种工业数据增补方法,其特征在于包括如下步骤:步骤A:确定参照序列、缺失序列;记序列Pi=(Si1,Si2,Si3,…,Sin)为完整的参照序列,记序列q′j=(Dj1,Dj2,…,Djm,Dj(m+k),…,Djn)为缺失序列,其中k>1,m<n;步骤B:初始化序列;调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列Si1,Si2,…,Sim,Si(m+k),…,Sin,记为p′i;序列Si1-Si1,Si2-Si1,…,Sim-Si1,Si(m+k)-Si1,…,Sin-Si1称为序列p′i的始点零化像,记为步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出完整参照序列的面积spi,临时参照序列的面积sp′i,缺失序列的面积sq′j;计算序列1与序列i之间的灰色关联度,其中,序列1与序列i为参照序列或者缺失序列,记ε1i为序列1与序列i之间的相似程度,计算所有参照序列p′i之间p′i与缺...
【专利技术属性】
技术研发人员:吉琨,
申请(专利权)人:国家电网公司,江苏瑞中数据股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。