一种基于插值查找的电网台账数据填充与统计方法及装置制造方法及图纸

技术编号:23983369 阅读:25 留言:0更新日期:2020-04-29 12:22
本发明专利技术涉及电气工程数据分析领域,更具体地来涉及一种基于插值查找的电网数据填充与统计方法及装置。本发明专利技术包括:获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;建立关键字索引字符串命名及提取规则并进行关键字索引字符串提取;基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全;针对未有查找匹配到的关键字索引字符串,进行关键字符串的二次模糊匹配并将缺省信息填充补全;对填充完整后的电网设备台账依据关键属性列进行排序及统计分析。本发明专利技术提大幅提高了补全电网设备台账信息及统计的效率及准确性,还提高了电网设备台账统计分析的效率及结果质量。

A method and device for filling and statistics of grid account data based on interpolation search

【技术实现步骤摘要】
一种基于插值查找的电网台账数据填充与统计方法及装置
本专利技术涉及电气工程数据分析领域,更具体地来涉及一种基于插值查找的电网数据填充与统计方法及装置。
技术介绍
随着大数据时代发展、泛在电力物联网建设的不断推进,电网数据呈几何式增长。电力系统中的各类设备数目及种类众多、且变更频繁,电网设备台账是掌握公司电力设备状态、反映设备类型、数目、分布及变动情况的重要数据源。然而,由于各类电网设备台账由不同的管理团队进行维护管理,相关维护人员在录入数据的时候由于一些个人偏好原因会造成电力设备同一类型的数据出现多种表现形式,同时由于一些操作失误会导致一些数据信息空缺或错误,都将影响电网设备台账数据的统计分析效率及结果,影响对电网现状的分析及未来的电网规划决策。因此,目前的电网设备台账数据量大且数据质量较差,大量电网设备的相关属性信息都处于缺省状态,影响电网设备台账信息的统计分析结果。目前仅有的解决方法仅能依靠人工方式对缺省数据进行逐一查找及补全,不仅效率低、耗费人力物力,而且由于人工操作还可能造成数据录入的二次失误,影响台账数据的准确性。
技术实现思路
本专利技术的目的为了克服上述
技术介绍
的不足之处,提供了一种基于插值查找的电网台账数据填充与统计方法及装置,用于解决现有技术对于电网设备台账大量数据缺省而影响台账现状统计分析,现有的处理方法只能通过人工方式对缺省数据进行逐一查找及补全,效率低、耗费人力物力,而且由于人工操作还可能造成数据录入的二次失误,影响台账数据准确性。为了实现上述专利技术目的,本专利技术是通过以下技术方案来实现的:一种基于插值查找的电网台账数据填充与统计方法,包括:获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;建立关键字索引字符串命名及提取规则并进行关键字索引字符串提取;基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全;针对未有查找匹配到的关键字索引字符串,进行关键字符串的二次模糊匹配并将缺省信息填充补全;对填充完整后的电网设备台账依据关键属性列进行排序及统计分析。所述获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;包括:通过电网各个数据库平台获取电网设备的各项属性信息,进行分类汇总,并对设备名称按照统一的命名原则进行命名;所述数据获取的来源数据库即包括电网数据库通用数据库平台,包括PMS2.0系统、PIS系统、D5000系统,还包括独立数据库。所述统一原则包括:(1)建立等价文字集合,包含部分电力设备的关键字符以及代表关键字符的常用符号之间的等价对应关系;(2)基于建立的等价文字集合,建立统一的设备名称命名原则,将所有电力设备名称中不符合统一命名原则的关键字符进行替换;(3)建立设备名称关键字符的统一的规范化组合顺序,并按照确立好的规范化组合顺序进行修改,组合顺序的基本规则为“线路名称+序号+具体的电力设备名称”。所述建立关键字索引字符串命名及提取规则,是针对按照统一命名原则命名的设备名称提取关键字索引字符串,并构成关键字索引字符串集合。所述关键字索引字符串的提取是针对电网设备台账中所需填充的缺省属性信息的,在配电网电力设备元件的各项信息中,其所属供电区属性及类型多数是空缺的,为了按照供电区属性及类型对电力设备进行详细的统计分析,对关联的设备台账进行查找检索,将电力设备元件所属的电力线路名称作为关键字索引字符串提取出来,再进行查找匹配以获得各电力设备相对应的供电区属性及类型。所述基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全,是将各个台账信息表中关键字索引字符串结果一致的结果信息进行信息自动填充,将所有匹配到的电网设备台账的各项缺省的数据信息进行补全。所述基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全的步骤包括:步骤1,将需要查找的字符串Str0用分散的单个字符集合表示,为Str0={X1,X2,…,Xn},并计算对应字符首字母的ASCII码(大写字母的ASCII码)为{F(X1),F(X2),…,F(Xn)};步骤2,关联电网设备台账表中被查找的关键字用字符串集合表示,即STR={Str1,Str2,…,StrN},i=1,2,…,N,其中Stri={Yi,1,Yi,2,…,Yi,M},对应的字符首字母的ASCII码(大写字母的ASCII码)为{F(Yi,1),F(Yi,2),…,F(Yi,M)};步骤3,从第一个字符开始匹配,采用插值查找算法快速定位下一个查找的字符串位置,当定位到与第一个字符相同的字符后,接着采用插值查找算法匹配第二、三…个字符,直至获得在STR集合中与Str0字符串完全一致的字符串;步骤4,根据匹配获得的完全一致的字符串的各类属性信息,则该关键字关键字符串的缺省属性信息即为其在关联设备台账中所匹配到的关键字索引字符串所对应的属性信息。所述针对未有查找匹配到的关键字索引字符串,进行关键字符串的二次模糊匹配并将缺省信息填充补全,是指对关键字索引字符串进行字符拆分,进行关键字符串二次模糊匹配,将所有匹配到的电网设备各项缺省位置的数据信息进行自动填充补全。所述对填充完整后的电网设备台账依据关键属性列进行排序及统计分析是针对补全所有关键信息的电网设备台账进行统计分析,按关键属性列进行排序及统计分析,获得基于供电区属性及供电区类型的电网设备统计分析结果;所述关键属性包括:电力设备所属的供电区属性及类型、电力设备的运行年限、无功补偿容量及使用性质。一种基于插值查找的电网台账数据填充与统计装置,包括:台账数据预处理模块,用于获取电网各个数据库平台的电网设备的各项属性信息,进行分类汇总,并对电力设备名称按照统一的命名原则进行命名;关键字符串提取模块,用于建立关键字索引字符串命名及提取规则,针对已按照统一命名原则进行命名的设备名称提取关键字索引字符串,并构成关键字索引字符串集合;缺省项信息填充模块,用于将各个台账信息表中与关键字索引字符串结果一致的信息自动填充至电网设备台账的缺省位置;统计分析模块,用于针对补全所有关键信息的电网设备台账进行统计分析,按关键属性列进行排序并获得统计分析结果;其中:台账数据预处理模块与关键字符串提取模块相连接,关键字符串提取模块与缺省项信息填充模块相连接,缺省项信息填充模块与统计分析模块相连接;缺省项信息填充模块还分别与关键字索引字符串查找、匹配子模块和二次模糊匹配子模块相连接。所述缺省项信息填充模块包括:关键字索引字符串查找、匹配子模块,用于对关键字索引字符串集合进行查找、匹配,找到各台账信息表中与所需查找的关键字索引字符串相匹配的结果并对缺省信息进行填充;二次模糊匹配子模块,用于针对未有匹配到的关键字索引字符串,对关键字进行拆分或删减并进行二次模糊匹配本文档来自技高网...

【技术保护点】
1.一种基于插值查找的电网台账数据填充与统计方法,其特征是:包括:/n获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;/n建立关键字索引字符串命名及提取规则并进行关键字索引字符串提取;/n基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全;/n针对未有查找匹配到的关键字索引字符串,进行关键字符串的二次模糊匹配并将缺省信息填充补全;/n对填充完整后的电网设备台账依据关键属性列进行排序及统计分析。/n

【技术特征摘要】
1.一种基于插值查找的电网台账数据填充与统计方法,其特征是:包括:
获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;
建立关键字索引字符串命名及提取规则并进行关键字索引字符串提取;
基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全;
针对未有查找匹配到的关键字索引字符串,进行关键字符串的二次模糊匹配并将缺省信息填充补全;
对填充完整后的电网设备台账依据关键属性列进行排序及统计分析。


2.根据权利要求1所述的一种基于插值查找的电网台账数据填充与统计方法,其特征是:所述获取并汇总电网设备台账数据,对电力设备按照统一原则进行命名;包括:
通过电网各个数据库平台获取电网设备的各项属性信息,进行分类汇总,并对设备名称按照统一的命名原则进行命名;
所述数据获取的来源数据库即包括电网数据库通用数据库平台,包括PMS2.0系统、PIS系统、D5000系统,还包括独立数据库;
所述统一原则包括:
(1)建立等价文字集合,包含部分电力设备的关键字符以及代表关键字符的常用符号之间的等价对应关系;
(2)基于建立的等价文字集合,建立统一的设备名称命名原则,将所有电力设备名称中不符合统一命名原则的关键字符进行替换;
(3)建立设备名称关键字符的统一的规范化组合顺序,并按照确立好的规范化组合顺序进行修改,组合顺序的基本规则为“线路名称+序号+具体的电力设备名称”。


3.根据权利要求1所述的一种基于插值查找的电网台账数据填充与统计方法,其特征是:所述建立关键字索引字符串命名及提取规则,是针对按照统一命名原则命名的设备名称提取关键字索引字符串,并构成关键字索引字符串集合。


4.根据权利要求1所述的一种基于插值查找的电网台账数据填充与统计方法,其特征是:所述关键字索引字符串的提取是针对电网设备台账中所需填充的缺省属性信息的,在配电网电力设备元件的各项信息中,其所属供电区属性及类型多数是空缺的,为了按照供电区属性及类型对电力设备进行详细的统计分析,对关联的设备台账进行查找检索,将电力设备元件所属的电力线路名称作为关键字索引字符串提取出来,再进行查找匹配以获得各电力设备相对应的供电区属性及类型。


5.根据权利要求1所述的一种基于插值查找的电网台账数据填充与统计方法,其特征是:所述基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全,是将各个台账信息表中关键字索引字符串结果一致的结果信息进行信息自动填充,将所有匹配到的电网设备台账的各项缺省的数据信息进行补全。


6.根据权利要求1所述的一种基于插值查找的电网台账数据填充与统计方法,其特征是:所述基于插值查找算法对关键字索引字符串进行查找、匹配,将匹配到的电网设备台账中的缺省属性信息进行填充补全的步骤包括:
步骤1,将需要查找的字符串Str0用分散的单个字符集合表示,为Str0={X1,X2,…,Xn},并计算对应字符首字母的ASCII码(大写字母的ASCII码)为{F(X1),F(X2...

【专利技术属性】
技术研发人员:杨天蒙张明理韩震焘梁毅史喆白坚实程孟增张泽宇王义贺吉星杨方圆蒋理朱赫炎
申请(专利权)人:国网辽宁省电力有限公司经济技术研究院国家电网有限公司沈阳电力勘测设计院有限责任公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1