一种基于次序依赖的电力数据集修复方法技术

技术编号:20944275 阅读:51 留言:0更新日期:2019-04-24 02:18
本发明专利技术涉及一种基于次序依赖的电力数据集修复方法,该方法基于动态规划实现,包括以下步骤:a1)获取待修复的电力数据序列数组;a2)构建一数组dp,该数组中的元素dp[i]定义为所述电力数据序列数组中前i天中满足次序依赖的最长序列长度;a3)根据所述数组dp获得最长序列长度maxlen,通过递归方式依次得到最长满足次序依赖序列,完成修复,获得满足次序依赖的修复后数据。与现有技术相比,本发明专利技术具有缩短修复时间、提高修复效果等优点。

A Sequence Dependence-Based Approach to Power Data Set Repair

The present invention relates to a method for repairing power data sets based on sequence dependence. The method is implemented based on dynamic programming, including the following steps: a1) acquiring the array of power data sequences to be repaired; a2) constructing an array dp, in which the element DP [i] is defined as the longest sequence length satisfying sequence dependence in the first day of the array of power data sequences; a3) acquiring the array DP according to the array dp; The longest sequence length, maxlen, can obtain the longest sequence satisfying the order dependency in turn by recursive method, complete the repair, and obtain the repair data satisfying the order dependency. Compared with the prior art, the invention has the advantages of shortening the repair time and improving the repair effect.

【技术实现步骤摘要】
一种基于次序依赖的电力数据集修复方法
本专利技术涉及一种电力数据处理方法,尤其是涉及一种基于次序依赖的电力数据集修复方法。
技术介绍
随着数字化技术的发展,为了保证系统的安全、可靠和高效运行,大量管理信息系统、地理信息系统、电力市场信息系统以及电网运行的实时信息系统等在电力系统中得到了广泛应用,产生了大量数据。这些海量数据的增加,特别是考虑到这些数据从各方面、各层次和各环节详细及深入地描述了电力系统本身在各种条件和情况下的属性,这为数据挖掘的应用创造了必要的条件。数据质量检测是数据挖掘过程中一个重要而关键的过程,它对数据挖掘是否成功起着巨大的作用。一个很直观的理解是,如果数据质量不佳,那么不管使用何种数据挖掘方法,使用多么大量的计算资源,进行多么高效的计算,都很难得到符合实际的分析结果。这是因为挖掘算法对其处理的数据集有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完整性、冗余性和模糊性等问题,很少能直接满足数据挖掘算法的要求。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于次序依赖的电力数据集修复方法。本专利技术的目的可以通过以下技术方案来实现:一种基于次序依赖的电力数据集修复方法,该方法基于动态规划实现,包括以下步骤:a1)获取待修复的电力数据序列数组;a2)构建一数组dp,该数组中的元素dp[i]定义为所述电力数据序列数组中前i天中满足次序依赖的最长序列长度;a3)根据所述数组dp获得最长序列长度maxlen,通过递归方式依次得到最长满足次序依赖序列,完成修复,获得满足次序依赖的修复后数据。进一步地,步骤a2)中,所述次序依赖表示为即电力数据随时间单调递增。进一步地,步骤a2)中,dp[i]通过状态转移方程迭代获得:dp[i]=Max(dp[j]+1)i∈[1,len]j∈[1,i-1]其中,len为电力数据序列数组长度,dp[1]=1。进一步地,步骤a3)中采用简单滑动平均方法修复数据。本专利技术还提供一种基于次序依赖的电力数据集修复方法,该方法基于动态规划和二分查找实现,包括以下步骤:b1)获取待修复的电力数据序列数组;b2)构建一数组d,该数组中的元素d[k]定义为长度为k的满足次序依赖最长子序列的最小末尾元素;b3)根据所述数组d通过栈输出最长满足次序依赖序列,完成修复。进一步地,步骤b2)中,所述次序依赖表示为即电力数据随时间单调递增。与现有技术相比,本专利技术具有以如下有益效果:1)基于家用电力读数数据集的特征,本专利技术使用次序依赖来描述数据遵循的准则,基于次序依赖实现错误电力数据的修复,相较于常见的信号处理方法在电力数据集上具有显著的改善,修复时间和效果上都具有较大优势。2)本专利技术对时间复杂度进行进一步优化,结合动态规划和二分查找,使方法在大数据集上能在合适的时间内完成修复。附图说明图1为本专利技术的流程示意图;图2为本专利技术与对比方法的修复时间比较示意图;图3为本专利技术与对比方法的F1-score比较示意图;图4为本专利技术与对比方法的距离比较示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术通过对家用电力读数数据的分析,引入次序依赖来描述读数数据应该遵循的质量准则,并提出一种次序依赖的修复算法进行针对电力数据的数据修复,以提升数据质量。数据质量是一个多维的概念,每个维度代表一个审视数据质量的角度,例如一致性(Consistency)、完整度(Completeness)、精简度(ConciseRepresentation)、及时度(Timeliness)和可理解度(Understandability)等。在实践中,数据一致性是一个常见的度量标准。通过在数据集上定义数据应该遵循的准则,并在随后检测数据一致性,以及修复数据以满足一致性,可以有效消除数据集中的错误,并为之后的数据挖掘等工作带来帮助。一、理论基础1、通用记号对于一个关系模式R(A1,…,Am),每个Aj代表一个R上的单属性,对于R的一个实例r,tr、sr代表r上的元组。tr[A]代表r上元组t的属性A,称其为一个单元(cell),并用val(tr[A])来代表这个单元的值。当r在上下文中足够明确时,可以将简记为ti。次序依赖和传统依赖(如函数依赖)的一个核心区别是,次序依赖是定义在属性的列表上,而传统的依赖关系通常定义在属性的集合上。属性集合和属性列表(1)使用和分别代表关系模式R上的属性集合,而X和Y分别代表R上的属性列表。特别地,使用[]来表示空的属性列表。(2)按照惯例,一个非空的列表X表示为[A|Y],其中首属性A是一个单属性且出现在X的开头,而尾部Y则是将A从X中去掉后得到的剩余列表。(3)对于一个属性列表X,使用集合来表示X中属性构成的集合,表示元组t在属性集上的投影。2、次序依赖的记号属性列上的次序符号对于元组t,s和一个属性列表X,当以下成立时,则有(1)X=[];或(2)X=[A|Y]且(a)val(t[A])<Aval(s[A])或者(b)val(t[A])=val(s[A]),并且这里<A是定义在属性A的值域上的次序符号,显然它可以定义在数字,字符串和日期等类型属性上。3、次序依赖对于R上的两个属性列表X和Y,表示一个次序依赖,读作X的序决定Y的序。一个R上的实例r满足次序依赖记做则对于r上的任意两条元组t,s,当时,二、本专利技术方法由现实情况可知,电表每日读数不会出现下降的情况,所以正常的单一电表读数应为单调递增的,即存在次序依赖次序依赖的验证基于表中元组的两两比较,次序依赖的修复问题即使限制为属性值的二元距离,相同的属性优先级,以及约束集仅包含函数依赖的弱化次序依赖时,复杂度也被证明是NP-hard。因此次序依赖的修复不仅需要良好的启发式算法,同时也需要在算法中记录属性的关系以保证属性的优先级能够正确修改的顺序,并满足次序依赖本身字典序的定义。而在时间序列形式的电力数据集上,表现为元组右侧即电表读数随时间单调递增。以数据集为基础,同时满足修改点数最少的修复要求,本专利技术提出一种基于次序依赖的电力数据集修复方法,为适用于时间序列的多项式方法,具体过程如下:1、定义数组dp,dp[i]的含义为数据集中前i天中满足次序依赖的最长序列长度,即不在此序列中的数据为需要修复的错误数据。2、通过迭代维护数组dp,从前到后依次找到满足次序依赖的数据,在这些数据中依次对dp[i]寻找现有的最长满足次序依赖的序列长度dp[j],将其长度加一赋值给dp[i]。3、维护完整个dp数组后,得到最长序列长度maxlen,通过递归依次得到最长满足次序依赖序列,并完成修复。上述方法的代码可以描述为:输入:电力数据序列数组s,长度为len。输出:满足次序依赖的修复后数据。上述方法建立在动态规划的基础上,dp[i]表示为前i天满足次序依赖并且修改点数最少的序列长度,易得状态转移方程:dp[i]=Max(dp[j]+1)i∈[1,len]j∈[1,i-1]首先完成初始化(1-4行),其次通过状态转移方程依次得到前i天的序列长度(5-11行)本文档来自技高网...

【技术保护点】
1.一种基于次序依赖的电力数据集修复方法,其特征在于,该方法基于动态规划实现,包括以下步骤:a1)获取待修复的电力数据序列数组;a2)构建一数组dp,该数组中的元素dp[i]定义为所述电力数据序列数组中前i天中满足次序依赖的最长序列长度;a3)根据所述数组dp获得最长序列长度maxlen,通过递归方式依次得到最长满足次序依赖序列,完成修复,获得满足次序依赖的修复后数据。

【技术特征摘要】
1.一种基于次序依赖的电力数据集修复方法,其特征在于,该方法基于动态规划实现,包括以下步骤:a1)获取待修复的电力数据序列数组;a2)构建一数组dp,该数组中的元素dp[i]定义为所述电力数据序列数组中前i天中满足次序依赖的最长序列长度;a3)根据所述数组dp获得最长序列长度maxlen,通过递归方式依次得到最长满足次序依赖序列,完成修复,获得满足次序依赖的修复后数据。2.根据权利要求1所述的基于次序依赖的电力数据集修复方法,其特征在于,步骤a2)中,所述次序依赖表示为即电力数据随时间单调递增。3.根据权利要求1所述的基于次序依赖的电力数据集修复方法,其特征在于,步骤a2)中,dp[i]通过状态转移方程迭代获得:dp[i]=Max(d...

【专利技术属性】
技术研发人员:苏运郭乃网田英杰许唐云庞天宇刘舒
申请(专利权)人:国网上海市电力公司上海运邦信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1