一种基于PySpark的储能数据计算和分析方法技术

技术编号:26304051 阅读:19 留言:0更新日期:2020-11-10 19:59
本发明专利技术公开了一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输。

【技术实现步骤摘要】
一种基于PySpark的储能数据计算和分析方法
本专利技术涉及海量数据的处理和分析
,具体为一种基于PySpark的储能数据计算和分析方法。
技术介绍
近年来,随着信息技术的发展,传统的能源行业开始以信息化、智能化的特点进行转变。而对于储能领域,对于数据的实时性和准确性的要求也越来越高,随着时间精度的提高,电厂运行时产生的数据量级也随之水涨船高,面对海量数据时,内存需求无法满足计算,因此需要及时构建一个基于大数据处理的平台,实现海量数据的处理和分析。为此,本专利采用了一种基于spark的python库PySpark,并通过web平台实现,完成对储能数据的分析和处理。
技术实现思路
本专利技术的目的在于提供一种基于PySpark的储能数据计算和分析方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于PySpark的储能数据计算和分析方法,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。优选的,所述数据采集采集电厂储能数据。优选的,所述数据转换将数据转换为Restfulapi的形式,通过接口发送。优选的,所述数据储存根据采集数据的时标进行数据存储入数据库。优选的,所述读取数据通过Sparkdataframe读取数据库数据。优选的,所述数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零。优选的,所述数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion。优选的,所述数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理。优选的,所述数据权重分配加入时间特征值,对RDD中数据进行数据权重分配。优选的,所述数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果。与现有技术相比,本专利技术的有益效果如下:该基于PySpark的储能数据计算和分析方法,采用Restfulapi进行数据接口的设计,是为了满足如今B/S架构设计平台的需求,通过http协议进行数据传输;PySpark是为了让ApacheSpark支持python语言的python第三方库,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,也是目前最流行的大数据处理框架之一;其主要内容包含了SparkCore和SparkSQL等;RDD弹性分布式数据集分布是Spark的一个重要功能,属于Spark的基本数据类型,具有分区、只读和并行的特性。附图说明图1为本专利技术工作流程结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于PySpark的储能数据计算和分析方法,储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算,数据采集采集电厂储能数据,数据转换将数据转换为Restfulapi的形式,通过接口发送,数据储存根据采集数据的时标进行数据存储入数据库,读取数据通过Sparkdataframe读取数据库数据,数据预处理通过dataframe对采集数据进行数据预处理,例如数据列的处理、数据行的增添、数据去错、数据除零,数据生成将dataframe的数据转换为父级SparkRDD数据格式,而后根据时间节点,生成各个子级RDD的partion,数据归一化将RDD的数据除了时间数据外,对剩余数据进行归一化处理和正则化处理,数据权重分配加入时间特征值,对RDD中数据进行数据权重分配,数据分类计算根据权重分配后的数据,利用线性回归对数据进行分类和计算,得出需要的结果;由于储能数据都带有时标,故本专利采用了线性回归算法对储能数据进行以测计算分析。线性回归归根结底拟合一个因变量与一个自变量之间的线性关系y=f(x),其方法包含了BGD(批量梯度下降法),SGD(随机梯度下降),MGBD(小批量梯度下降法)等。而在其中,SGD算法只采用一个数据作为权重进行数据迭代和更新,正好契合储能领域权重数据的单一特性,故本文采用SGD算法进行回归,其算法如下所示:目标函数的损失函数通常取各个样本损失函数的平均,那么假设目标函数为:其中J(x)是第xi个样本的目标函数,那么目标函数在在x处的梯度为:随机梯度下降的思想就是随机采样一个样本J(xi)来更新参数,那么计算开销就从Ο(n)下降到Ο(1);运用PySpark使用LinearRegressionWithSGD回归预测消纳比例;其中,data是父级RDD数据,Point是根据时间段分出的节点,Consumptiondata是根据节点得出的分布式子级RDD数据集,weight是权重,LinearRegressionWithSGD是PySpark的SGD算法函数。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种基于PySpark的储能数据计算和分析方法,其特征在于,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。/n

【技术特征摘要】
1.一种基于PySpark的储能数据计算和分析方法,其特征在于,所述储能数据计算和分析方法通过web应用框架,将储能系统数据封装为应用于restfulapi接口的形式,将接口数据转换为以PySpark为基础的RDD数据,进行数据处理和分析,所述储能数据计算和分析方法包括以下流程步骤:数据采集、数据转换、数据储存、读取数据、数据预处理、数据生成、数据归一化、数据权重分配和数据分类计算。


2.根据权利要求1所述的一种基于PySpark的储能数据计算和分析方法,其特征在于:所述数据采集采集电厂储能数据。


3.根据权利要求1所述的一种基于PySpark的储能数据计算和分析方法,其特征在于:所述数据转换将数据转换为Restfulapi的形式,通过接口发送。


4.根据权利要求1所述的一种基于PySpark的储能数据计算和分析方法,其特征在于:所述数据储存根据采集数据的时标进行数据存储入数据库。


5.根据权利要求1所述的一种基于PySpark的储能数据计算和分析方法,其特征在于:所述读取数据通过Sparkdataframe读取数据库数...

【专利技术属性】
技术研发人员:尚德华谢思奇
申请(专利权)人:傲普上海新能源有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1