System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种海量电网数据的快速处理与查询方法技术_技高网

一种海量电网数据的快速处理与查询方法技术

技术编号:40805978 阅读:16 留言:0更新日期:2024-03-28 19:29
本发明专利技术公开了一种海量电网数据的快速处理与查询方法,包括数据模式界定部分和模式数据处理与查询部分,数据模式界定部分用于界定海量电网数据中具有重复模式、稀疏模式和递增/递减连续模式的数据;模式数据处理与查询部分对于已经界定模式的数据,分别针对重复模式、稀疏模式和递增/递减连续模式采用不同的方法处理数据和查询数据。通过本发明专利技术的数据处理和查询算法可以显著减少数据的存储需求,处理后的数据需要更少的磁盘空间,从而为分布式系统提供更有效的存储管理和资源利用。

【技术实现步骤摘要】

本专利技术属于电网数据管理,具体涉及一种海量电网数据的快速处理与查询方法


技术介绍

1、随着电力信息化建设的不断推进,大量实时和非实时系统得到建立,大体可以分为监测系统、控制系统以及管理系统,如能源管理系统(d5000)、配网能源管理系统(d5200)、gis系统、生产管理系统(pmis)、用电信息采集系统、物资管理系统等。这些系统对电网的安全管理、安全生产以及经营起到了极其重要的作用。虽然目前这些系统的海量数据经整合后汇聚至数据中台,并应用了不同的分布式数据处理模型(比如mapreduce、maxcompute、datahub),但是搜索查询处理海量电网数据时,依然不能满足需求。主要体现在:1、存储空间限制:海量电网数据包含大量的监测数据、传感器数据、事件记录等,存储这些数据需要庞大的存储资源。现有的分布存储系统无法满足数据的快速增长、长期存储和数据多份备份的需求;2、并发处理需求及传输带宽限制:海量电网数据的实时处理和查询可能涉及多个数据源、多个处理任务和多个用户的并发访问并进行传输。然而,多数据源多处理任务的请求,受限于网络带宽无法满足大规模电网数据的传输需求,进而降低数据中台或企业中台的计算能力。

2、电网公司的主要业务系统有自身的特点,如用采系统主要包括电量数据、电压数据和功率数据等;d5000、d5200主要包括一次接线图数据、潮流数据等;pmis主要包括设备资源数据、设备状态数据等,业务数据具有高度的重复模式、稀疏模式和递增/递减连续模式。因此,如何针对电力系统数据的特点提出一种适用于电网业务特点的海量电网数据实时处理与查询框架十分必要。


技术实现思路

1、本专利技术为了解决上述问题,本专利技术的目的是提供一种海量电网数据的快速处理与查询方法,本专利技术的数据处理和查询算法可以显著减少数据的存储需求,处理后的数据需要更少的磁盘空间,从而为分布式系统提供更有效的存储管理和资源利用。

2、本专利技术的目的通过以下技术方案实现:

3、一种海量电网数据的快速处理与查询方法,包括两个部分,即数据模式界定部分和模式数据处理与查询部分。

4、数据模式界定部分用于界定海量电网数据中具有重复模式、稀疏模式和递增/递减连续模式的数据,其中;

5、重复模式的界定:通过统计分析数据的频率分布和数据中的重复子序列来判断数据是否存在重复模式,其中频率分布用于浮点数类型数据,重复子序列用于整型和字符类型数据,如海量电网数据中的电压数据,以电压等级10kv、35kv、110kv、220kv为中心波动的连续数据,电压有效值数据、电压电流的瞬时数据(基频率为50hz,采样频率为500hz的正弦采样数据)。

6、频率分布分析方法,若某些特定值或值范围的频率显著高于其他值,则界定数据具有重复模式,包括以下两个步骤:

7、s1:将数据划分为若干离散区间,用最大最小值或者取一定的步长划分出来离散区间;

8、s2:统计各个区间内数据值出现的频次;

9、重复子序列判断方法,通过自平衡二叉查找树(如avl树)和哈希表来判定。利用哈希表存储已经遍历的子序列的哈希值,以快速检索和比较子序列是否重复;自平衡二叉查找树将序列元素依次插入avl树,然后查找已插入的元素是否重复出现来查找重复子序列。

10、s1:初始化一个空的avl树和一个空的哈希表;

11、s2:从序列的开头开始,依次取出序列中的每个元素;

12、s3:对于每个元素,先在哈希表中查找是否存在相同的元素。如果存在,则找到了重复的子序列,结束判断过程;

13、s4:如果哈希表中不存在相同的元素,则将当前元素插入到avl树中,并在哈希表中记录当前元素;

14、s5:重复步骤s2到步骤s4,直到遍历完整个序列。

15、稀疏模式的界定:通过计算数据的稀疏度指标来判断是否存在稀疏模式,如海量电网数据中的设备一次接线数据、设备状态数据和设备资源数据。

16、稀疏度指标是用于衡量数据集中零元素的比例,从而确定数据集是否为稀疏的,即稀疏矩阵的非零元素数目与矩阵总元素数目之比。

17、对于数据矩阵a,大小为m×n,非零元素的数量为nz,那么稀疏度指标可以通过公式计算:稀疏度指标=(1-(nz/(m*n)))*100%;

18、稀疏度指标越接近100%,表示数据集中的零元素越多,数据集越稀疏。相反,指标越接近0%,表示数据集中的非零元素越多,数据集越密集。

19、递增/递减连续模式的界定:通过分箱方法和自相关分析算法来实现。若数据既满足分箱方法中的连续性,又满足自相关分析算法的连续性,则认为数据具有递增/递减连续模式,如海量电网数据中的电流数据、潮流数据和功率数据。

20、分箱方法首先搜寻出数据的最大值/最小值,然后将数据进行分箱操作(对于浮点数据则离散化为不同区间的值)。如果数据的分箱操作后大部分数据点被分配到相邻的箱中,而非聚集在少数离散值上,那么界定数据具有连续性;

21、自相关分析算法描述数据自身不同时期的相关程度,度量历史数据对现在产生的影响。对于序列数据计算自相关系数,其步骤包括:

22、s1:计算时间序列数据的平均值(mean):和方差(variance):

23、s2:对于每个滞后值k,计算序列数据与其在k个时间单位之后的值之间的协方差(covariance)。协方差度量两个随机变量之间的线性关系,其中包括其方向和强度。

24、s3:将每个延迟值k的协方差除以时间序列数据的方差,得到该延迟下的自相关系数。自相关系数的取值范围在-1到1之间,表示正负相关的程度,值越接近1或-1表示相关性越强。

25、自相关系数的计算公式为:

26、

27、其中:n:数据集大小,k:滞后值,xi:每个数据点,数据集的平均值,t:t∈z+,t≥1。

28、模式数据处理与查询部分对于已经界定模式的数据,分别针对重复模式、稀疏模式和递增/递减连续模式采用不同的方法处理数据和查询数据,其中查询数据是处理数据的逆过程。模式数据处理与查询部分包含三部分,即重复模式的数据处理与查询、稀疏模式的数据处理与查询和递增/递减连续模式数据的处理与查询。

29、重复模式的数据处理与查询,考虑浮点类型数据和非浮点类型数据两种情况,处理过程为:

30、对于重复模式的非浮点类型数据处理过程,数据集合中的数据出现概率分布不均匀时,利用熵编码将出现概率高的符号用较短的编码表示,而出现概率低的符号用较长的编码表示。

31、s1:对于给定的电网数据,统计每个数据在数据集中出现的频率。通过扫描整个数据集,计算每个数据出现的次数或频率;

32、s2:根据频率统计结果,计算出数据的熵。

33、熵的计算公式:h=-∑(p*;log2(p)),其中p为每个数据的出现频率,熵的单位是比特(b本文档来自技高网...

【技术保护点】

1.一种海量电网数据的快速处理与查询方法,其特征在于:包括两个部分,即数据模式界定部分和模式数据处理与查询部分,数据模式界定部分用于界定海量电网数据中具有重复模式、稀疏模式和递增/递减连续模式的数据,其中;

2.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:频率分布分析方法,包括以下两个步骤:

3.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:稀疏度指标是用于衡量数据集中零元素的比例,从而确定数据集是否为稀疏的,即稀疏矩阵的非零元素数目与矩阵总元素数目之比;具体如下:

4.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:分箱方法是,首先搜寻出数据的最大值/最小值,然后将数据进行分箱操作;如果数据的分箱操作后大部分数据点被分配到相邻的箱中,而非聚集在少数离散值上,那么界定数据具有连续性。

5.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:自相关分析算法描述数据自身不同时期的相关程度,度量历史数据对现在产生的影响;对于序列数据计算自相关系数,其步骤包括:

6.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:重复模式的数据处理与查询,考虑浮点类型数据和非浮点类型数据两种情况,处理过程为:

7.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:稀疏模式的数据处理与查询则根据业务计算是否应用矩阵乘法或者矩阵向量乘法来考虑不同的存储方式;如果仅仅为了数据的处理和查询,则使用哈希表的键值存储行索引或列索引,以及使用值来存储数据;如果业务计算则应用到矩阵乘法,具体如下:

8.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:递增/递减连续模式数据的处理与查询,电网数据具有一定的周期性或者相对来说小范围的波动性,如果业务需要频繁的计算则对于递增/递减连续模式的数据,利用数据的均值和方差来处理原始数据,使用这些统计量来表示原始数据;在查询时,只需要将均值和差值还原回来,然后根据它们来生成原始数据;

...

【技术特征摘要】

1.一种海量电网数据的快速处理与查询方法,其特征在于:包括两个部分,即数据模式界定部分和模式数据处理与查询部分,数据模式界定部分用于界定海量电网数据中具有重复模式、稀疏模式和递增/递减连续模式的数据,其中;

2.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:频率分布分析方法,包括以下两个步骤:

3.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:稀疏度指标是用于衡量数据集中零元素的比例,从而确定数据集是否为稀疏的,即稀疏矩阵的非零元素数目与矩阵总元素数目之比;具体如下:

4.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:分箱方法是,首先搜寻出数据的最大值/最小值,然后将数据进行分箱操作;如果数据的分箱操作后大部分数据点被分配到相邻的箱中,而非聚集在少数离散值上,那么界定数据具有连续性。

5.根据权利要求1所述的一种海量电网数据的快速处理与查询方法,其特征在于:自相关分析算法描述数据自身不同时期...

【专利技术属性】
技术研发人员:徐明生陈咏秋李春霞凌进
申请(专利权)人:江苏电力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1