一种基于信息熵的数据填充方法及装置制造方法及图纸

技术编号:20566974 阅读:47 留言:0更新日期:2019-03-14 09:37
本发明专利技术实施例提供了一种基于信息熵的数据填充方法及装置,其中,方法包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到已有数据中缺少属性值的缺失数据中的预填充属性值;将预填充属性值预填充在缺失数据中,获得预填充后缺失数据;采用硬聚类算法K‑means,对预填充后缺失数据以及完整数据进行聚类,获得与预填充后缺失数据处于同一簇内,且与预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算相似完整数据的信息熵;基于信息熵,计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重;利用权重与相似完整数据的属性值,计算缺失属性值;将缺失属性值填充在缺失数据中。

【技术实现步骤摘要】
一种基于信息熵的数据填充方法及装置
本专利技术涉及信息处理
,特别是涉及一种基于信息熵的数据填充方法及装置。
技术介绍
近年来,随着信息处理技术的发展,通常需要对数据进行处理,但是所处理的数据可能并不完整,比如,工业互联网平台可能采集到数据并不完整。这个工业互联网平台是工业云平台的延伸发展,使得工业设备分别与互联网以及工业云平台建立连接。由于人为失误和互联网的设备故障等因素,使得工业互联网平台从现场的工业设备及互联网中,采集的数据包含不完整的数据。这样,就需要在工业互联网平台上对数据进行分析之前,需要先对不完整的数据进行填充,将填充后的数据传输到工业云平台,从而使用数据分析出诸多信息,比如,检测工业设备的状态。对于上述不完整的数据进行填充,目前一般采用如下统计学上的均值或众数,对数据中的缺失值进行处理:获取所有完整的数据的属性值;对所有完整的数据的属性值,求均值或者求众数;将得到的均值或众数,作为数据中的缺失值,并将数据中的缺失值,填充在不完整的数据中。这种方式实现了对数据中的缺失值进行处理,然而本申请专利技术人在实现本专利技术的过程中,采用如下统计学上的均值或众数,对数据中的缺失值进行处理,会存在如下问题:使用统计学上的均值或众数对缺失值的填充,不具有针对性,会导致数据准确性降低。
技术实现思路
本专利技术实施例的目的在于提供一种基于信息熵的数据填充方法及装置,用以解决现有技术中使用统计学上的均值或众数进行缺失值的填充,不具有针对性,会导致数据准确性降低的技术问题。具体技术方案如下:第一方面,本专利技术实施提供了基于信息熵的数据填充方法,包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到所述已有数据中缺少属性值的缺失数据中的预填充属性值;将所述预填充属性值预填充在所述缺失数据中,获得预填充后缺失数据;采用硬聚类算法K-means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算所述相似完整数据的信息熵;基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重;利用所述权重与所述相似完整数据的属性值,计算所述缺失属性值;将所述缺失属性值填充在所述缺失数据中。进一步的,所述采用硬聚类算法K-means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据,包括:采用硬聚类算法K-means中的马氏距离,将预填充后缺失数据以及所述完整数据进行聚类,得到多个簇;针对每个簇,计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度;查找所述预设条件为相似度由高到低的顺序,处于前M名的相似度对应的完整数据,作为相似完整数据,M为大于0的自然数。进一步的,所述针对每个簇,计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度,包括:所述预填充后缺失数据包括多个属性,每个属性对应一个属性值,所述完整数据包括多个属性,每个属性对应一个属性值;计算同一簇内的预填充后缺失数据的每个属性,分别与完整数据的每个属性之间的属性相似度;获取用于指示所述缺失数据实际缺失的属性值的变量;利用所述属性相似度及所述实际缺失的属性值的变量,针对每个簇,计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度。进一步的,所述基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重,包括:针对全部相似完整数据中的每个相似完整数据,将该相似完整数据的信息熵,在全部相似完整数据的信息熵的占比,分别确定为该相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重。进一步的,所述计算所述相似完整数据的信息熵,包括:将获取的多个相似完整数据采用如下公式进行单位化:其中,pi为相似完整数据源发生不确定性的概率,i为不同相似完整数据的标识,i共有t个,i=1,2,…,t,t为相似完整数据的个数,si为第i个相似完整数据;采用如下公式,计算每个相似完整数据的熵值:hi=-pilnpi,i=1,2,…,t其中,hi为相似完整数据的信息熵;基于所述信息熵,采用如下公式,计算所述相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重:其中,wi为所述相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重;利用权重与相似完整数据的属性值,采用如下公式,计算所述缺失属性值:其中,f为缺失数据中填充的缺失属性值,xi为与缺失数据的相似完整数据对应的属性值。第二方面,本专利技术实施提供了基于信息熵的数据填充装置,包括:预处理模块,用于对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到所述已有数据中缺少属性值的缺失数据中的预填充属性值;预填充模块,用于将所述预填充属性值预填充在所述缺失数据中,获得预填充后缺失数据;聚类模块,用于采用硬聚类算法K-means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;第一计算模块,用于计算所述相似完整数据的信息熵;第二计算模块,用于基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重;第三计算模块,利用所述权重与所述相似完整数据的属性值,计算所述缺失属性值;填充模块,用于将所述缺失属性值填充在所述缺失数据中。进一步的,所述聚类模块具体用于:采用硬聚类算法K-means中的马氏距离,将预填充后缺失数据以及所述完整数据进行聚类,得到多个簇;针对每个簇,计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度;查找所述预设条件为相似度由高到低的顺序,处于前M名的相似度对应的完整数据,作为相似完整数据,M为大于0的自然数。进一步的,所述聚类模块具体用于:所述预填充后缺失数据包括多个属性,每个属性对应一个属性值,所述完整数据包括多个属性,每个属性对应一个属性值;计算同一簇内的预填充后缺失数据的每个属性,分别与完整数据的每个属性之间的属性相似度;获取用于指示所述缺失数据实际缺失的属性值的变量;利用所述属性相似度及所述实际缺失的属性值的变量,针对每个簇,计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度。进一步的,所述第二计算模块,具体用于:针对全部相似完整数据中的每个相似完整数据,将该相似完整数据的信息熵,在全部相似完整数据的信息熵的占比,分别确定为该相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重。进一步的,所述第一计算模块,具体用于:将获取的多个相似完整数据采用如下公式进行单位化:其中,pi为相似完整数据源发生不确定性的概率,i为不同相似完整数据的标识,i共有t个,i=1,2,…,t,t为相似完整数据的个数,si为第i个相似完整数据;采用如下公式,计算每个相似完整数据的熵值:hi=-pilnpi,i=1,2,…,t其中,hi为相似完整数据的信息熵;基于所述信息熵,采用如下公式,计算所述相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的本文档来自技高网...

【技术保护点】
1.一种基于信息熵的数据填充方法,其特征在于,包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到所述已有数据中缺少属性值的缺失数据中的预填充属性值;将所述预填充属性值预填充在所述缺失数据中,获得预填充后缺失数据;采用硬聚类算法K‑means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算所述相似完整数据的信息熵;基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重;利用所述权重与所述相似完整数据的属性值,计算所述缺失属性值;将所述缺失属性值填充在所述缺失数据中。

【技术特征摘要】
1.一种基于信息熵的数据填充方法,其特征在于,包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到所述已有数据中缺少属性值的缺失数据中的预填充属性值;将所述预填充属性值预填充在所述缺失数据中,获得预填充后缺失数据;采用硬聚类算法K-means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算所述相似完整数据的信息熵;基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重;利用所述权重与所述相似完整数据的属性值,计算所述缺失属性值;将所述缺失属性值填充在所述缺失数据中。2.如权利要求1所述的方法,其特征在于,所述采用硬聚类算法K-means,对预填充后缺失数据以及所述完整数据进行聚类,获得与所述预填充后缺失数据处于同一簇内,且与所述预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据,包括:采用硬聚类算法K-means中的马氏距离,将预填充后缺失数据以及所述完整数据进行聚类,得到多个簇;针对每个簇,计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度;查找所述预设条件为相似度由高到低的顺序,处于前M名的相似度对应的完整数据,作为相似完整数据,M为大于0的自然数。3.如权利要求2所述的方法,其特征在于,所述针对每个簇,计算处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度,包括:所述预填充后缺失数据包括多个属性,每个属性对应一个属性值,所述完整数据包括多个属性,每个属性对应一个属性值;计算同一簇内的预填充后缺失数据的每个属性,分别与完整数据的每个属性之间的属性相似度;获取用于指示所述缺失数据实际缺失的属性值的变量;利用所述属性相似度及所述实际缺失的属性值的变量,针对每个簇,计算得到处于同一簇内所述预填充后缺失数据以及所有完整数据之间的相似度。4.如权利要求1所述的方法,其特征在于,所述基于所述信息熵,计算所述相似完整数据中的属性值对所述缺失数据的属性值所作贡献的权重,包括:针对全部相似完整数据中的每个相似完整数据,将该相似完整数据的信息熵,在全部相似完整数据的信息熵的占比,分别确定为该相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重。5.如权利要求1或4所述的方法,其特征在于,所述计算所述相似完整数据的信息熵,包括:将获取的多个相似完整数据采用如下公式进行单位化:其中,pi为相似完整数据源发生不确定性的概率,i为不同相似完整数据的标识,i共有t个,i=1,2,…,t,t为相似完整数据的个数,si为第i个相似完整数据;采用如下公式,计算每个相似完整数据的熵值:hi=-pilnpi,i=1,2,…,t其中,hi为相似完整数据的信息熵;基于所述信息熵,采用如下公式,计算所述相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重:其中,wi为所述相似完整数据中的属性值,对所述缺失数据的属性值所作贡献的权重;利用权重与相似完整数据的属性值,采用如下公式...

【专利技术属性】
技术研发人员:王进龚晓菲时忆杰何跃鹰
申请(专利权)人:国家计算机网络与信息安全管理中心北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1