一种数据预处理方法技术

技术编号:24517539 阅读:39 留言:0更新日期:2020-06-17 06:46
本发明专利技术公开了一种数据预处理方法,涉及机器学习领域,用于对国家电网的电力杆塔、电力传输线路和电力通道做灾害风险预测前对采集的数据进行处理,包括如下步骤:采集历史信息,形成完整的历史数据,对完整的历史数据进行重采样,或对数据特征进行选择,得到训练集。本发明专利技术所提供的方法对采集而来的数据加以处理,使其满足预测所需。

A data preprocessing method

【技术实现步骤摘要】
一种数据预处理方法
本专利技术涉及机器学习领域,具体涉及一种数据预处理方法。
技术介绍
在电力行业,自然灾害、人为灾害对于国家电网塔杆、输电线路的破坏一直是极力需要避免的。借助于机器学习以及大数据技术的发展,电力行业逐步开始对自然灾害、人为灾害可能发生的概率进行预测。而对于自然灾害、人为灾害可能发生的概率进行预测,需要大量的数据作为支撑,同时需要保证数据的准确性、有效性,方能保证预测的准确率。但是,由于过往对于自然灾害、人为灾害的记录存在着各种各样的缺陷,例如数据的缺损、数据的冗余等等,因而需要对采集来的数据进行处理,方能满足预测所需。
技术实现思路
为解决前述问题,本专利技术提供了一种数据预处理方法,对采集而来的数据加以处理,使其满足预测所需。为了达到上述目的,本专利技术采用如下技术方案:一种数据预处理方法,用于对国家电网的电力杆塔、电力传输线路和电力传输通道做灾害风险预测前对采集的数据进行处理,包括如下步骤:采集历史信息,并对历史信息进行整理,形成完整的历史数据;所述完整的历史数据具有若干维度,所述维度即为数据特征;对完整的历史数据进行重采样,或对数据特征进行选择,得到训练集。可选的,采集历史信息包括:现场维修部门部署历史信息、杆塔及线路台账历史信息、气象历史信息;现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。可选的,对历史信息进行整理,形成完整的历史数据具体包括:基于国家线网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据,一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息;对各个历史信息下缺失的数值子信息补充完整;对各个历史信息下的非数值子信息进行独热编码;独热编码后,对气象历史信息构建气象子信息,构建的气象子信息包括每日温度、每日湿度、每日风速以及每日气压的平均统计、最大值统计、最小值统计,还包括月平均降雨频数统计、月平均降雨频率统计、月平均降雪频数统计、月平均降雪频率统计。可选的,对各个历史信息下缺失的数值子信息补充完整时,如果某一历史信息下的数值子信息缺失量超过一半,则删除该历史信息及其数值子信息;如果该历史信息下的数值子信息缺失量未超过一半,则使用该历史信息下数值子信息的平均数、中位数或行/列众数对该历史信息补充完整。可选的,对非数值子信息进行独热编码时,将同一历史信息下的各个非数值子信息分别作为状态值,所述状态值的位数与该历史信息下的各个非数值子信息的个数相等,每个状态值中只有一位为1,其余位为0。可选的,所述灾害风险包括:覆冰灾害、雷击灾害、树线放电灾害、地质灾害以及机械外破灾害。可选的,若做覆冰灾害或雷击灾害风险预测前对采集的数据进行处理,则对数据特征进行选择,得到训练集;若做树线放电灾害、地质灾害或机械外破灾害风险预测前对采集的数据进行处理,则对完整的历史数据进行重采样,得到训练集。本专利技术具有如下有益效果:由于国家电网遭到自然灾害、人为灾害的数据来源不同,脏数据比较多,因此,对采集的数据进行处理,对缺失的数据补全,对非数值型的数据进行编码,不仅便于计算机识别,也避免了脏数据、缺失数据对算法效果造成负面影响。而由于自然灾害、人为灾害的数据来源较多,有些灾害的数据维度较高,有些灾害的数据又较为稀少,因此,对于维度较高的数据,筛选出数量合适的最优数据作为训练集,避免数据冗余导致计算速度减慢;对于较为稀少或不平衡的数据进行重采样,使样本数量得到有效扩充,保证了样本的多样性。同时,经过处理,还能保证数据的准确,进而保证预测结果的准确。本专利技术的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本专利技术最佳的实施方式或手段将结合附图来详尽表现,但并非是对本专利技术技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。【附图说明】下面结合附图对本专利技术作进一步说明:图1为本专利技术实施例一的示意图;图2为本专利技术实施例二的示意图。【具体实施方式】下面结合本专利技术实施例的附图对本专利技术实施例的技术方案进行解释和说明,但下述实施例仅为本专利技术的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其他实施例,都属于本专利技术的保护范围。在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。实施例一:如图1所示,本实施例提供了一种数据预处理方法,用于对国家电网的电力杆塔、电力传输线路和电力通道做灾害风险预测前对采集的数据进行处理,本实施例所提供的预处理方法用于对覆冰灾害或雷击灾害风险预测前对采集的数据进行处理,包括如下步骤:采集历史信息,包括现场维修部门部署历史信息、杆塔及线路台账历史信息、气象历史信息,其中,现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。在进行覆冰灾害风险预测前,还需要采集:包括观冰站上报历史信息、PMS系统历史信息、国网覆冰预警中心历史信息、以及覆冰告警等级,观冰站上报历史信息包括第一天气状况、第一气温、第一湿度、第一风速、第一风向、线路设计覆冰厚度、有无模拟导线;PMS系统历史信息包括塔杆子信息、线路子信息、导线子信息;国网覆冰预警中心历史信息包括历史线路覆冰子信息、短期覆冰预测子信息。在进行雷击风险预测前,还需要采集:雷电历史信息、地形地貌历史信息。对采集的上述历史信息进行整理,形成完整的历史数据,完整的历史数据具有若干维度,维度即为数据特征。由于国家电网覆冰灾害数据来源不同,脏数据比较多,因此,需要对采集的历史信息进行处理,对缺失的数据补全,以避免脏数据、缺失数据对后续算法效果造成负面影响,还需要对非数值型的数据进行编码,以便于计算机读取、识别。对历史信息进行整理,形成完整的历史数据具体包括如下子步骤:基于国家线网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据,一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息;对各个历史信息下缺失的数值子信息补充完整:如果某一历史信息下的数值子信息缺失量超过一半,则删除该历史信息及其数值子信息;如果该历史信息下的数值本文档来自技高网...

【技术保护点】
1.一种数据预处理方法,其特征在于,所述数据预处理方法用于对国家电网的电力杆塔、电力传输线路和电力传输通道做灾害风险预测前对采集的数据进行处理,包括如下步骤:/n采集历史信息,并对历史信息进行整理,形成完整的历史数据;/n所述完整的历史数据具有若干维度,所述维度即为数据特征;/n对完整的历史数据进行重采样,或对数据特征进行选择,得到训练集。/n

【技术特征摘要】
1.一种数据预处理方法,其特征在于,所述数据预处理方法用于对国家电网的电力杆塔、电力传输线路和电力传输通道做灾害风险预测前对采集的数据进行处理,包括如下步骤:
采集历史信息,并对历史信息进行整理,形成完整的历史数据;
所述完整的历史数据具有若干维度,所述维度即为数据特征;
对完整的历史数据进行重采样,或对数据特征进行选择,得到训练集。


2.根据权利要求1所述的数据预处理方法,其特征在于,采集历史信息包括:现场维修部门部署历史信息、杆塔及线路台账历史信息、气象历史信息;
现场维修部门部署历史信息包括线路缺陷子信息、隐患子信息、故障子信息;
气象历史信息包括天气状况子信息、气温子信息、湿度子信息、风速子信息、风向子信息。


3.根据权利要求1所述的数据预处理方法,其特征在于,对历史信息进行整理,形成完整的历史数据具体包括:
基于国家线网的电力传输线路,将与同一条电力传输线路相关的历史信息及其子信息作为一条完整的历史数据,一条完整的历史数据下,不同的历史信息及其子信息作为该完整的历史数据下不同的维度;
对历史信息进行整理,确定各个历史信息下的数值子信息和/或非数值子信息;
对各个历史信息下缺失的数值子信息补充完整;
对各个历史信息下的非数值子信息进行独热编码;
独热编码后,对气象历史信息构建气...

【专利技术属性】
技术研发人员:吴和俊熊志刚王敏康陆宇宁程田宝胡驰远
申请(专利权)人:杭州华网信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1