【技术实现步骤摘要】
一种多元能源数据的异构融合方法
[0001]本专利技术属于数据融合领域,涉及一种多元能源数据的异构融合方法。
技术介绍
[0002]能源互联网的发展离不开对能源大数据的研究与应用,能源数据呈现出海量、快速、准确的特点,多种不同的能源数据源导致数据异构,产生的数据信息众多。对这种日益增加的复杂性需要对所有可用的数据源进行融合。数据的异构性导致了表示数据的特征向量之间的差异,成为多源异构数据关联、交叉和集成之间的鸿沟,给大数据融合带来了机遇和挑战。
[0003]数据融合技术是通过合理的处理方法和有效的数据挖掘方法,将来自多个数据源的数据进行组合,从而为决策者提供完整可靠的信息,以做出正确的判断的综合技术。由于多源异构数据来源众多的特征,采集到的数据的质量难以保证,缺失的、错误的、不一致的等不符合规范的“脏数据”普遍存在,同时来自不同系统的数据的格式也并不统一,这些都会给数据的有效分析带来困难,利用数据融合技术可以对多站系统中不同来源的异构数据进行综合处理,提高数据的质量,并完成对不同数据指标进行转换的计算。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种多元能源数据的异构融合方法,其特征在于,包括如下步骤:步骤1,在选定时间段内,不间断在线采集多元能源数据,获取原始数据;步骤2,将不同来源的异构数据通过ETL工具进行预处理,使得原始数据的多种格式转换为统一目标数据格式;步骤3,将预处理后的数据集成以数据库方式存储;步骤4,基于HFCM聚类算法对步骤3中的数据进行融合;步骤5,输出数据融合结果。2.根据权利要求1所述的多元能源数据的异构融合方法和模型,其特征在于,步骤4包括如下步骤:步骤4.1,定义聚类中心集合;步骤4.2,给定初始聚类中心;步骤4.3,确定最优初始聚类中心;步骤4.4,设定损失函数;步骤4.5,指定聚类数目,初始化迭代停止条件,在满足损失函数最小的情况下,根据不同条件分别计算聚类中心、权重向量或隶属度矩阵;步骤4.6,判断是否满足迭代停止条件,若否则返回步骤4.3;步骤4.7,检查聚类有效性,将不符合条件的聚类剔除。3.根据权利要求2所述的多元能源数据的异构融合方法和模型,其特征在于,步骤4.1,定义聚类中心集合:假设数据集合为X={x1,x2,
…
,x
n
},其中x
i
={x
i1
,x
i2
,
…
,x
ip
},i∈[1,n],每个x
i
都有p维向量,p∈[1,n];n为样本数目;聚类数目为c,聚类中心集合V=(v1,v2,...,v
c
)=((v
11
,v
12
,...,v
1p
),(v
21
,ν
22
,...,v
2p
),...,(v
c1
,v
c2
,...,v
cp
)),其中每个聚类中心与数据都具有相同的维度,即均为p维向量,p∈[1,n]。4.根据权利要求3所述的多元能源数据的异构融合方法,其特征在于,步骤4.2,确定初始聚类中心:步骤4.2.1,给定密度半径d
c
,计算局部密度ρ、距离δ、变量γ的值:计算所有数据的相似性矩阵D=(d
ij
)
n
×
n
;局部密度度量采用分段函数,其具体形式如下:式中:ρ
i
表示数据点i的密度;d
c
为密度半径;d
ij
表示数据点x
i
与数据点x
j
之间的相似性,i,j∈[1,n];用隶属度矩阵U=(u
tj
)来表示每个样本与所有聚类之间的关系,u
tj
表示第j个样品关于第t个聚类中心的隶属度;对于HFCM聚类算法,须满足如下条件:距离δ={δ1,δ2,
…
,δ
n
}与变量γ={γ1,γ2,
…
,γ
n
}的计算公式如下:δ
i
=min
1≤j≤n
d
ij
;
γ
i
=ρ
i
×
δ
i
;其中γ
i
是一个变量,用于拟合正态分布曲线;若i<n或j<n,则重新给定密度半径d
c
,重新计算局部密度ρ、距离δ、变量γ;否则转至步骤4.2.2;步骤4.2.2,设置γ={γ1,γ2,
…
,γ
n
}的ρ
‑
δ决策图与密度分布图,并计算γ的均值μ和方差σ:步骤4.2.3,去掉步骤4.2.2中所有大于2μ的变量后,再计算剩余变量的均值μ
′
和方差σ
′
;步骤4.2.4,使用此置信区间(μ
′‑
5σ
′
,μ
′
+5σ
′
)找到奇点;步骤4.2.5,给定参数g,将满足ρ/δ<g和δ/ρ<g的聚类中心为初始聚类中心,以去掉ρ与δ偏差较大的奇点。5.根据权利要求4所述的多元能源数据的异构融合方法,其特征在于,步骤4.3,确定最优初始聚类中心:步骤4.3.1给定迭代半径l,设定P...
【专利技术属性】
技术研发人员:张宏达,李亦龙,李熊,肖涛,陆春光,王朝亮,刘炜,宋磊,蒋群,黄荣国,陈齐瑞,卢菲菲,赵蜜,赵帆,李堃,杨盛烨,
申请(专利权)人:浙江华云信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。