【技术实现步骤摘要】
电网调控多源业务流即时处理的数据清洗方法及相关装置
[0001]本专利技术属于数据处理
,涉及一种电网调控多源业务流即时处理的数据清洗方法及相关装置。
技术介绍
[0002]随着特高压交直流互联电网的建设、新能源的发展、以及电力市场改革的深化,电网运行特性发生了较大的变化,电网调控系统服务范围快速扩大,使获取的电力调度数据及数据类型出现爆炸式增长,给电网调控系统数据存储和处理造成了很大的压力。目前电网调控系统采用分级建设,同时电网调度业务的云服务平台为满足电网调控系统业务连续性、实时性和协同性的要求,采用统一和分布相结合的分级部署设计,形成主导节点和协同节点的两级部署,主导节点作为各类模型及数据的中心,负责元数据和字典数据的管理,并负责各类数据的数据模型建立以及调管辖范围内模型及数据的汇集,协同节点负责本省模型及数据的汇集并向主导节点同步/转发相关数据主导节点和协同节点数据通过同步/转发方式,实现电网调控系统数据共享汇集与存储全网模型和数据。
[0003]而在实际电网调控系统运行和数据采集过程中,采集误差、ID ...
【技术保护点】
【技术特征摘要】
1.电网调控多源业务流即时处理的数据清洗方法,其特征在于,包括以下步骤:对电网调控多源运行数据的数据流进行解析,按单对象对解析后的数据进行数据分流形成多个非连续时间片集合;分析电网调控多源运行数据的时序关系及变化趋势特征,根据时序关系及变化趋势特征对多个非连续时间片集合重排序形成时间有序的运行数据;将运行数据的主键信息与电网调控模型数据进行关联,提取运行数据的特征,对运行数据的特征进行维度分解、聚合重组,形成待清洗数据流;对待清洗数据流进行多数据源识别,识别得到多个数据源,利用多源数据最优源选择算法对多个数据源进行筛选,获取唯一源数据;对唯一源数据进行异常数据识别,识别得到异常数据,利用数据修复算法对异常数据进行对应修复处理,形成清洗后数据。2.根据权利要求1所述的电网调控多源业务流即时处理的数据清洗方法,其特征在于,所述对电网调控多源运行数据的数据流进行解析,按单对象对解析后的数据进行数据分流形成多个非连续时间片集合,包括:1)从源数据端获取采集的多业务系统数据所封装成的原始报文;2)对各原始报文进行数据解析得到各原始报文对应的原始数据,对各原始数据进行过滤,得到符合主键规范的原始数据;3)将原始数据进行存储,同时将原始数据封装成驱动清洗业务分析使用的生数据报文,发送到数据处理中心;生数据报文中包含多种数据类型、多个对象、多个电压等级的数据,并且生数据报文主题按照数据类型进行区分;4)数据处理中心接收到生数据报文后,对生数据报文进行解析,并按照生数据报文中的数据对象类型对实时数据进行分组,以报文为单位形成多个单对象时间片集合。3.根据权利要求1所述的电网调控多源业务流即时处理的数据清洗方法,其特征在于,所述分析电网调控多源运行数据的时序关系及变化趋势特征,根据时序关系及变化趋势特征对多个非连续时间片集合重排序形成时间有序的运行数据,包括:1)以报文为单位对非连续时间片集合的数据进行划分,得到数据窗口序列;2)对窗口内的数据按照对象id、数据类型、数据来源分组后形成一个单测点数据序列,按照数据业务时间进行升序排列,确定单测点数据序列的开始时间和结束时间;3)将新接收到数据窗口序列的开始时间和结束时间与已有数据窗口序列比较,后一窗口的开始时间与前一序处理窗口的结束时间对齐,保证同一测点的整体数据流的时间有序性。4.根据权利要求1所述的电网调控多源业务流即时处理的数据清洗方法,其特征在于,所述将运行数据的主键信息与电网调控模型数据进行关联,提取运行数据的特征,对运行数据的特征进行维度分解、聚合重组,形成待清洗数据流,包括:1)利用融合电网调控模型数据提取运行数据的特征,对运行数据的特征进行提取,得到运行数据中的对象ID编码、统计口径编码、数据类型编码、数据来源编码;将对象ID编码、统计口径编码、数据类型编码、数据来源编码与电网模型数据关联,分析出关键信息,同时获取调度机构与设备、运维机构与设备、设备容器与设备的数据对象之间的关联关系;2)统计时间有序的运行数据中的数据量信息,结合关键信息和关联关系形成描述数据
流片段的多种维度的特征集合;然后利用数据清洗业务对多种维度的特征集合中的特征进行动态选取和组合,得到重组后的多种维度的特征集合,将重组后的维度信息作为数据流片段的主键描述信息,得到待清洗数据流。5.根据权利要求1所述的电网调控多源业务流即时处理的数据清洗方法,其特征在于,所述对待清洗数据流进行多数据源识别,识别得到多个数据源,利用多源数据最优源选择算法对多个数据源进行筛选,获取唯一源数据,包括:1)确定影响数据源选择的因素集F:F={f1,f2,...,f
i
,...,f
n
}其中,f
i
表示影响数据源选择的第i个因素,n表示影响因素的个数;2)评估每个数据源各因素的影响权重因子W:W={w1,w2,...,w
i
,...,w
n
}其中,w
i
表示第i个影响因素f
i
的影响权重;3)计算每个数据源各因素的影响评分G:G={g1,g2,
…
,g
i
,
…
,g
n
}其中,g
i
表示第i个影响因素f
i
的影响评分;4)计算每个数据源的综合评估结果B:B=G
·
W
T
其中,W
T
表示W的转置;对各数据源的综合评估结果进行比较,选出评分最高的数据源认为是最优源,从而选出唯一数据源。6.根据权利要求1所述的电网调控多源业务流即时处理的数据清洗方法,其特征在于,所述异...
【专利技术属性】
技术研发人员:谢琳,李立新,叶瑞丽,狄方春,王岩,冯琼,陶蕾,朱靖恺,封超涵,李大鹏,王治华,王佳琪,夏文岳,陈宏福,崔灿,高峰,张周杰,武书舟,
申请(专利权)人:国网上海市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。