【技术实现步骤摘要】
基于关联算法的继电保护数据的完整性校核方法及系统
本专利技术涉及继电保护数据处理
,并且更具体地,涉及一种基于关联算法的继电保护数据的完整性校核方法及系统。
技术介绍
对于继电保护大数据,保证数据的完整性是数据清洗的重要目标,为此,首先要校核数据完整性,然后采用一定的方法对不完整数据的缺失属性值进行预测。数据完整性校核的一般方法有:(1)采用一定的编码规则对数据完整性进行校核,包括奇偶校验、校验和、CRC校验等;(2)使用完整性数据集,将待校验的数据与完整性数据集中的项目进行对照,判断数据的完整性。例如,继电保护动作信息的完整性校验数据集包含设备、变电站、信息点所属数据集、信息名称、标准语义、信息值、时刻等内容。对于不完整数据中的空缺属性值,常采用最可能的值进行填充,如回归预测、插值估算等。上述数据完整性校核方法以及不完整数据中缺失属性值的预测方法只适用于特定场合,不具备通用性。
技术实现思路
本专利技术提出一种基于关联算法的继电保护数据的完整性校核方法及系统,以解决如何对继电保护数据的完整性进行校核的问题。为了解决上述问题,根据本专利技术的一个方面,提供了一种基于关联算法的继电保护数据的完整性校核方法,所述方法包括:根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;获取当前 ...
【技术保护点】
1.一种基于关联算法的继电保护数据的完整性校核方法,其特征在于,所述方法包括:/n根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;/n基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;/n根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;/n获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;/n按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。/n
【技术特征摘要】
1.一种基于关联算法的继电保护数据的完整性校核方法,其特征在于,所述方法包括:
根据获取的历史记录中不同属性的属性值集合确定项目集合,并利用获取的历史记录构建事务集;
基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集;
根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库;
获取当前的继电保护数据,并根据预设的不完整记录确定策略确定不完整记录;
按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值。
2.根据权利要求1所述的方法,其特征在于,所述基于不同的属性信息,利用所述项目集合和事务集分别挖掘频繁项目集,包括:
步骤21,将所述项目集合中每个项目的支持度与预设的支持度阈值进行比较,筛选支持度大于等于预设的支持度阈值的项目保留,以获取1项频繁项目集;
步骤22,设置k=2;
步骤23,在(k-1)项频繁项目集中,确定任意两个最后一个元素不同的项目集的并集,并判断每个并集的所有子集是否都在(k-1)项频繁项目集;
步骤24,若某个并集的所有子集都在(k-1)项频繁项目集中,则计算该并集的支持度,并筛选支持度大于等于预设的支持度阈值的项目集保留,以获取k项频繁项目集;
步骤25,判断(k-1)项频繁项目集的项目数是否大于等于2;若是,则更新k=k+1,并返回步骤23;反之,则结束。
3.根据权利要求1所述的方法,其特征在于,所述根据频繁项目集中的多项频繁项目集确定关联规则,并建立关联规则库,包括:
对于任一个多项频繁项目集,根据该多项频繁项目集中的元素确定多个对应的前项和后项,以分别确定多个初始关联规则;
筛选所述多个初始关联规则的中置信度大于等于预设置信度阈值的初始关联规则为强关联规则,并利用所述强关联规则建立关联规则库。
4.根据权利要求1所述的方法,其特征在于,所述筛选所述多个初始关联规则中置信度大于等于预设置信度阈值的初始关联规则,包括:
步骤31,选取一个多项频繁项目集;
步骤32,设置g=2;
步骤33,从该多项频繁项目集中筛选1-后件的初始关联规则,将各初始关联规则的置信度分别与置信度阈值比较,将置信度大于等于置信度阈值的初始关联规则确定为强关联规则;
步骤34,将该多项频繁项目集中的(g-1)-后件强关联规则的后件构成(g-1)-后件集合,将(g-1)-后件集合中仅有1个元素不同的2个后件取并集,并判断该并集包含的所有项目是否都在(g-1)-后件集合中;
步骤35,若某个并集包含的所有项目都在(g-1)-后件集合中,则以该并集作为后件构成本多项频繁项目集的一项关联规则,判断该关联规则的置信度是否大于等于置信度阈值,若是,则将该关联规则确定为强关联规则;
步骤36,判断当前的g是否小于本频繁项目集中项目数与1的差值;其中,若是,则更新g=g+1,并返回步骤34;反之,则结束。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的不完整记录确定策略确定不完整记录,包括:
若获取的当前的继电保护数据中某条记录的某个属性的属性值为预设的填充值或空值,则确定该记录为不完整记录。
6.根据权利要求1所述的方法,其特征在于,所述按照确定的不完整记录的确定属性的属性值搜索所述关联规则库,以确定与所述不完整记录匹配的关联规则,并利用所述与不完整记录匹配的关联规则确定所述不完整记录的不确定属性的实际值,包括:
将不完整记录的确定属性的属性值与所述关联规则库中的每个关联规则的前项进行匹配,以确定匹配关联规则;
将所述匹配关联规则的后项对应的属性值作为所述不完整记录的不确定属性的实际值,并填充。
7.一种基于关联算法的继电保护数据的完整性校核系统,其特征在于,所述系统包括:
事务集构建单元,用于根据获取...
【专利技术属性】
技术研发人员:郭鹏,王文焕,杨国生,詹荣荣,张烈,康逸群,闫周天,李妍霏,张瀚方,王丽敏,姜宏丽,申华,
申请(专利权)人:中国电力科学研究院有限公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。