基于关联算法的继电保护数据的完整性校核方法及系统技术方案

技术编号:24206107 阅读:54 留言:0更新日期:2020-05-20 14:44
本发明专利技术涉及一种基于关联算法的继电保护数据的完整性校核方法及系统,包括:根据获取的历史记录确定项目集合,并构建事务集;基于不同的属性信息,利用项目集合和事务集分别挖掘频繁项目集;根据频繁项目集中的多项频繁项目集确定关联规则,建立关联规则库;获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。本发明专利技术使用推断值代替预置值,使得校验后的数据更符合大数据的关联关系,能够为基于继电保护大数据的研究提供数据支撑。

Integrity checking method and system of relay protection data based on Association Algorithm

【技术实现步骤摘要】
基于关联算法的继电保护数据的完整性校核方法及系统
本专利技术涉及继电保护数据处理
,并且更具体地,涉及一种基于关联算法的继电保护数据的完整性校核方法及系统。
技术介绍
对于继电保护大数据,保证数据的完整性是数据清洗的重要目标,为此,首先要校核数据完整性,然后采用一定的方法对不完整数据的缺失属性值进行预测。数据完整性校核的一般方法有:(1)采用一定的编码规则对数据完整性进行校核,包括奇偶校验、校验和、CRC校验等;(2)使用完整性数据集,将待校验的数据与完整性数据集中的项目进行对照,判断数据的完整性。例如,继电保护动作信息的完整性校验数据集包含设备、变电站、信息点所属数据集、信息名称、标准语义、信息值、时刻等内容。对于不完整数据中的空缺属性值,常采用最可能的值进行填充,如回归预测、插值估算等。上述数据完整性校核方法以及不完整数据中缺失属性值的预测方法只适用于特定场合,不具备通用性。
技术实现思路
本专利技术提出一种基于关联算法的继电保护数据的完整性校核方法及系统,以解决如何对继电保护数据的完整性进行校核的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种基于关联算法的继电保护数据的完整性校核方法,所述方法包括:根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。优选地,其中所述基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集,包括:步骤21,将所述项目集合中每个项目的支持度与预设的支持度阈值进行比较,筛选支持度大于等于预设的支持度阈值的项目保留,以获取1项频繁项目集;步骤22,设置k=2;步骤23,在(k-1)项频繁项目集中,确定任意两个最后一个元素不同的项目集的并集,并判断每个并集的所有子集是否都在(k-1)项频繁项目集;步骤24,若某个并集的所有子集都在(k-1)项频繁项目集中,则计算该并集的支持度,并筛选支持度大于等于预设的支持度阈值的项目集保留,以获取k项频繁项目集;步骤25,判断(k-1)项频繁项目集的项目数是否大于等于2;若是,则更新k=k+1,并返回步骤23;反之,则结束。优选地,其中所述根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库,包括:对于任一个多项频繁项目集中,根据该多项频繁项目集中的元素确定多个对应的前项和后项,以分别确定多个初始关联规则;筛选所述多个初始关联规则中置信度大于等于预设置信度阈值的初始关联规则作为强关联规则,并利用强关联规则建立关联规则库。优选地,其中所述筛选所述多个初始关联规则中置信度大于等于预设置信度阈值的初始关联规则,包括:步骤31,选取多项频繁项目集中的一个项目;步骤32,设置g=2;步骤33,从该多项频繁项目集中筛选1-后件的初始关联规则,将各初始关联规则的置信度分别与置信度阈值比较,将置信度大于等于置信度阈值的初始关联规则确定为强关联规则;步骤34,将该多项频繁项目集中的(g-1)-后件强关联规则的后件构成(g-1)-后件集合,将(g-1)-后件集合中仅有1个元素不同的2个后件取并集,并判断该并集包含的所有项目是否都在(g-1)-后件集合中;步骤35,若某个并集包含的所有项目都在(g-1)-后件集合中,则以该并集作为后件构成本多项频繁项目集的一项关联规则,判断该关联规则的置信度是否大于等于置信度阈值,若是,则将该关联规则确定为强关联规则;步骤36,判断当前的g是否小于本频繁项目集中项目数与1的差值;其中,若是,则更新g=g+1,并返回步骤34;反之,则结束。优选地,其中所述根据预设的不完整记录确定策略确定不完整记录,包括:若获取的当前的继电保护数据中某条记录的某个属性的属性值为预设的填充值或空值,则确定该记录为不完整记录。优选地,其中所述按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值,包括:将不完整记录的确定属性的属性值与所述关联规则库中的每个关联规则的前项进行匹配,以确定匹配关联规则;将所述匹配关联规则的后项对应的属性值作为所述不完整记录的不确定属性的实际值,并填充。根据本专利技术的另一个方面,提供了一种基于关联算法的继电保护数据的完整性校核系统,所述系统包括:事务集构建单元,用于根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;频繁项目集确定单元,用于基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;关联规则库建立单元,用于根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;不完整记录确定单元,用于获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;数据校核单元,用于按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。优选地,其中所述频繁项目集构建单元,基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集,包括:步骤21,将所述项目集合中每个项目的支持度与预设的支持度阈值进行比较,筛选支持度大于等于预设的支持度阈值的项目保留,以获取1项频繁项目集;步骤22,设置k=2;步骤23,在(k-1)项频繁项目集中,确定任意两个最后一个元素不同的项目集的并集,并判断每个并集的所有子集是否都在(k-1)项频繁项目集;步骤24,若某个并集的所有子集都在(k-1)项频繁项目集中,则计算该并集的支持度,并筛选支持度大于等于预设的支持度阈值的项目集保留,以获取k项频繁项目集;步骤25,判断(k-1)项频繁项目集的项目数是否大于等于2;若是,则更新k=k+1,并返回步骤23;反之,则结束。优选地,其中所述关联规则库建立单元,根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库,包括:初始关联规则确定模块,用于对于任一个多项频繁项目集,根据该多项频繁项目集中的元素确定多个对应的前项和后项,以分别确定多个初始关联规则;关联规则库建立模块,用于保留所述多个初始关联规则中置信度大于等于预设置信度阈值的初始关联规则作为强关联规则,并利用强关联规则建立关联规则库。优选地,其中所述关联规则库建立模本文档来自技高网...

【技术保护点】
1.一种基于关联算法的继电保护数据的完整性校核方法,其特征在于,所述方法包括:/n根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;/n基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;/n根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;/n获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;/n按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。/n

【技术特征摘要】
1.一种基于关联算法的继电保护数据的完整性校核方法,其特征在于,所述方法包括:
根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;
基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;
根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;
获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;
按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。


2.根据权利要求1所述的方法,其特征在于,所述基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集,包括:
步骤21,将所述项目集合中每个项目的支持度与预设的支持度阈值进行比较,筛选支持度大于等于预设的支持度阈值的项目保留,以获取1项频繁项目集;
步骤22,设置k=2;
步骤23,在(k-1)项频繁项目集中,确定任意两个最后一个元素不同的项目集的并集,并判断每个并集的所有子集是否都在(k-1)项频繁项目集;
步骤24,若某个并集的所有子集都在(k-1)项频繁项目集中,则计算该并集的支持度,并筛选支持度大于等于预设的支持度阈值的项目集保留,以获取k项频繁项目集;
步骤25,判断(k-1)项频繁项目集的项目数是否大于等于2;若是,则更新k=k+1,并返回步骤23;反之,则结束。


3.根据权利要求1所述的方法,其特征在于,所述根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库,包括:
对于任一个多项频繁项目集,根据该多项频繁项目集中的元素确定多个对应的前项和后项,以分别确定多个初始关联规则;
筛选所述多个初始关联规则的中置信度大于等于预设置信度阈值的初始关联规则为强关联规则,并利用所述强关联规则建立关联规则库。


4.根据权利要求1所述的方法,其特征在于,所述筛选所述多个初始关联规则中置信度大于等于预设置信度阈值的初始关联规则,包括:
步骤31,选取一个多项频繁项目集;
步骤32,设置g=2;
步骤33,从该多项频繁项目集中筛选1-后件的初始关联规则,将各初始关联规则的置信度分别与置信度阈值比较,将置信度大于等于置信度阈值的初始关联规则确定为强关联规则;
步骤34,将该多项频繁项目集中的(g-1)-后件强关联规则的后件构成(g-1)-后件集合,将(g-1)-后件集合中仅有1个元素不同的2个后件取并集,并判断该并集包含的所有项目是否都在(g-1)-后件集合中;
步骤35,若某个并集包含的所有项目都在(g-1)-后件集合中,则以该并集作为后件构成本多项频繁项目集的一项关联规则,判断该关联规则的置信度是否大于等于置信度阈值,若是,则将该关联规则确定为强关联规则;
步骤36,判断当前的g是否小于本频繁项目集中项目数与1的差值;其中,若是,则更新g=g+1,并返回步骤34;反之,则结束。


5.根据权利要求1所述的方法,其特征在于,所述根据预设的不完整记录确定策略确定不完整记录,包括:
若获取的当前的继电保护数据中某条记录的某个属性的属性值为预设的填充值或空值,则确定该记录为不完整记录。


6.根据权利要求1所述的方法,其特征在于,所述按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值,包括:
将不完整记录的确定属性的属性值与所述关联规则库中的每个关联规则的前项进行匹配,以确定匹配关联规则;
将所述匹配关联规则的后项对应的属性值作为所述不完整记录的不确定属性的实际值,并填充。


7.一种基于关联算法的继电保护数据的完整性校核系统,其特征在于,所述系统包括:
事务集构建单元,用于根据获取...

【专利技术属性】
技术研发人员:郭鹏王文焕杨国生詹荣荣张烈康逸群闫周天李妍霏张瀚方王丽敏姜宏丽申华
申请(专利权)人:中国电力科学研究院有限公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1