当前位置: 首页 > 专利查询>广西大学专利>正文

配电网电压数据清洗平台及其清洗方法技术

技术编号:35641899 阅读:10 留言:0更新日期:2022-11-19 16:33
本发明专利技术公开配电网电压数据清洗平台及其清洗方法,包括pycharm平台,所述pycharm平台包括Python环境、Django环境、网站平台,本发明专利技术采用长短记忆(LSTM)神经网络、聚类分析(K

【技术实现步骤摘要】
配电网电压数据清洗平台及其清洗方法


[0001]本专利技术属于大数据清洗及电力系统相关
,具体涉及配电网电压数据清洗平台及其清洗方法。

技术介绍

[0002]随着社会的不断发展,用电量不断增加,电力系统日渐复杂,电网规模不断扩大。电力系统中各类设备实时数据的增加导致电网数据量飞速增长,数据异常、冗余、遗漏等问题严重影响了电网安全。数据质量的好坏、清洗出来的数据是否能够直观的展示直接影响到了调度人员能否快速、准确地对电力系统出现的问题作出重要的决策。因此,开发一个基于数据清洗的可视化平台有着重要意义。

技术实现思路

[0003]本专利技术的目的在于提供配电网电压数据清洗平台,以解决上述
技术介绍
中提出的电网数据量飞速增长,数据异常、冗余、遗漏等问题严重影响了电网安全和影响到了调度人员能否快速、准确地对电力系统出现的问题作出重要的决策问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:配电网电压数据清洗平台,包括pycharm平台,所述pycharm平台包括Python环境、Django环境、网站平台;
[0005]Django环境,Django环境用于提供Web后端开发和Web前端开发数据库;
[0006]Python环境,Python环境用于采集并搭建配电网电压数据结构以及数据预处理,并根据算法的数学模型将LSTM神经网络、聚类分析法、关联规则分析法运用于配电网数据清洗,得出四大分类指标以及离群点的数据,同时将以上所述数据传送到Web前端页面;
[0007]网站平台,用于将后端输送到前端的数据以可视化的图形展示。
[0008]优选的,所述四大分类指标以及离群点的数据为准确率、召回率、辨识率、F1分数。
[0009]优选的,所述Django环境具有自带数据库。
[0010]优选的,所述网站平台主要利用js,css实现对前端页面的开发,利用echarts实现对可视化图形的配置。
[0011]配电网电压数据清洗方法,包括以下步骤:
[0012]步骤1:在pycharm平台搭建并部署Python以及Django环境;
[0013]步骤2:根据算法的数学模型实现LSTM神经网络、聚类分析法、关联规则分析法的逻辑运算以及登录、注册功能和连接数据库的逻辑实现,得出准确率、召回率、辨识率、F1分数这四大分类指标以及离群点的数据,并将所述数据传送到前端页面同时将前端页面注册功能所输入的数据反馈回Django自带的数据库;
[0014]步骤3:搭建一个网站平台,将后端输送到前端的数据以可视化的图形展示。
[0015]优选的,所述步骤2中的LSTM神经网络的配电网电压清洗方法,包括以下步骤:
[0016]S1:对配电网电压的大数据进行数据的导入以及数据的预处理;
[0017]S2:搭建LSTM神经网络模型对数据样本进行训练得出最优训练模型;
[0018]S3:将测试数据代入步骤2的最优LSTM神经网络训练模型得出预测值;
[0019]S4:计算出步骤3得出的预测值与测试集的实际值的误差,并将误差形成一个集合即S;
[0020]S5:根据误差集合S是否服从均值为μ和标准差为σ的高斯分布判断异常值与正常值;
[0021]S6:根据实际值的正常值、异常值的个数和由算法判断出正常值、异常值的个数,计算评估指标即准确率、辨识率、召回率、F1分数;
[0022]其中,S1数据的预处理:包括构建特征数据集、训练批数据、数据归一化、按8:2的比例划分训练集和测试集、数据的噪声加入;
[0023]其中,S2LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络模型,进行训练;
[0024]其中,S3选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;
[0025]其中,S4数据预测:向训练好的模型,输入t

1、t

2时刻的实际数据值x
t
‑1和x
t
‑2,得t时刻的预测值y
t
,以此类推;
[0026]其中,S5计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测值与实际值之差形成一个集合S,即某一时刻的误差为;
[0027]其中,S6异常值、正常值的判断:将集合S建模为服从均值为μ和标准差为σ的高斯分布。当S
t
在(μ

3σ,μ+3σ)区间内时,该t时刻的实际值为正常值;反之,在区间外时,该t时刻的实际值为异常值。均值μ和标准差σ的计算公式为:
[0028][0029][0030]优选的,所述步骤2中的K

means聚类的配电网电压清洗方法,包括如下步骤:
[0031]S1:导入配电网电压的大数据并进行预处理,对数据进行分类,分割不同类型的数据方便后续处理使用;
[0032]S2:将导入的电压数据加噪声,即将部分数据更改为异常值并制作含有异常值的数据标签,作为后续聚类模型所需的原始数据、原始标签;
[0033]S3:搭建手肘法与轮廓系数法的聚类模型,将原始数据代入两个聚类模型中去并结合两者最优K值结果来选取最终最优K值;
[0034]S4:将最优K值代入新搭建的聚类模型进行K

means聚类,导出聚类后的聚类中心以及聚类标签等检测结果;
[0035]S5:将步骤4的检测聚类标签与步骤2中的原始标签进行对比,将差异与相似的数据个数用于计算评价指标;
[0036]其中,S2通过选取部分数据作为原始样本,并对其中部分的样本加噪声(设置异常值),记录异常值位置,并制作相应的数据标签(0为正常值,1为异常值);
[0037]其中,S3采用手肘法与轮廓系数法结合确定最优K值的大小,并对样本重新进行聚
类,分为K类,获取聚类中心以及聚类标签;
[0038]其中,S4对比聚类标签与数据标签的差异,得出四类数据个数,即实际为正常且检测为正常的数据、实际为正常且检测为异常的数据、实际为异常且检测为正常的数据、实际为异常且检测为异常的数据;
[0039]其中,S5以上述四类数据个数为基准值,计算准确率、召回率、辨识率以及F1分数。
[0040]优选的,所述步骤2中的关联规则对负荷预测结果进行清洗的方法,包括如下步骤:
[0041]S1:据负荷预测的结果求出负荷的变化率,将变化率数据离散处理;
[0042]S2:利用关联规则分析法建立变化率的频繁规则数据库,识别并剔除数据库之外的冒大数;
[0043]S3:利用线性插值法,针对删除异常值后的数据序列进行插补操作;
[0044]其中,S1数据离散化,将电力数据离散分成7类,0表示变化率在

0.005到0.005之间,1表示变化率在0.005到0.01之间,2表示变化率在,0.01到0.0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.配电网电压数据清洗平台,包括pycharm平台,其特征在于:所述pycharm平台包括Python环境、Django环境、网站平台;Django环境,Django环境用于提供Web后端开发和Web前端开发数据库;Python环境,Python环境用于采集并搭建配电网电压数据结构以及数据预处理,并根据算法的数学模型将LSTM神经网络、聚类分析法、关联规则分析法运用于配电网数据清洗,得出四大分类指标以及离群点的数据,同时将以上所述数据传送到Web前端页面;网站平台,用于将后端输送到前端的数据以可视化的图形展示。2.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述四大分类指标以及离群点的数据为准确率、召回率、辨识率、F1分数。3.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述Django环境具有自带数据库。4.根据权利要求1所述的配电网电压数据清洗平台,其特征在于:所述网站平台主要利用js,css实现对前端页面的开发,利用echarts实现对可视化图形的配置。5.配电网电压数据清洗方法,根据权利要求1

4所述的配电网电压数据清洗平台,其特征在于,包括以下步骤:步骤1:在pycharm平台搭建并部署Python以及Django环境;步骤2:根据算法的数学模型实现LSTM神经网络、聚类分析法、关联规则分析法的逻辑运算以及登录、注册功能和连接数据库的逻辑实现,得出准确率、召回率、辨识率、F1分数这四大分类指标以及离群点的数据,并将所述数据传送到前端页面同时将前端页面注册功能所输入的数据反馈回Django自带的数据库;步骤3:搭建一个网站平台,将后端输送到前端的数据以可视化的图形展示。6.根据权利要求5所述的配电网电压数据清洗方法,其特征在于:所述步骤2中的LSTM神经网络的配电网电压清洗方法,包括以下步骤:S1:对配电网电压的大数据进行数据的导入以及数据的预处理;S2:搭建LSTM神经网络模型对数据样本进行训练得出最优训练模型;S3:将测试数据代入步骤2的最优LSTM神经网络训练模型得出预测值;S4:计算出步骤3得出的预测值与测试集的实际值的误差,并将误差形成一个集合即S;S5:根据误差集合S是否服从均值为μ和标准差为σ的高斯分布判断异常值与正常值;S6:根据实际值的正常值、异常值的个数和由算法判断出正常值、异常值的个数,计算评估指标即准确率、辨识率、召回率、F1分数;其中,S1数据的预处理:包括构建特征数据集、训练批数据、数据归一化、按8:2的比例划分训练集和测试集、数据的噪声加入;其中,S2LSTM模型的训练:将训练的批数据代入已构建好的LSTM神经网络模型,进行训练;其中,S3选取最优的训练模型:将每一次训练的权重保存下来,选取最好的权重作为最优训练模型;其中,S4数据预测:向训练好的模型,输入t

1、t

2时刻的实际数据值x
t
‑1和x
t
‑2,得t时刻的预测值y
t
,以此类推;其中,S5计算预测值与实际值的误差:先将数据进行反归一化,然后将同一时刻的预测
值与实际值之差形成...

【专利技术属性】
技术研发人员:莫登文何华声张卫涛刘浪
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1