一种基于自动化测试框架的电网设备状态数据获取系统技术方案

技术编号:18553804 阅读:36 留言:0更新日期:2018-07-28 10:52
本发明专利技术公开了一种基于自动化测试框架的电网设备状态数据获取系统,及信息检索领域,特别是在自动数据获取领域和搜索引擎领域。该数据获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登录模块包括:USB Key检测模块、环境测试模块、用户信息记录模块;所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;所述页面解析模块包括:页面树建立模块、信息抽取模块;所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块。本数据获取系统可以高效率,自动化的从南方电网管理系统中获取数据,比人工获取的效率更高,效果更好,是建设基于大数据管理的智能电网的基石。

【技术实现步骤摘要】
一种基于自动化测试框架的电网设备状态数据获取系统
本专利技术涉及信息检索领域,特别是在自动数据获取领域和搜索引擎领域。
技术介绍
电容型设备,主要包括电容型电流互感器、电压互感器、套管、耦合电容器等,其数量约占变电站设备总数量的40%~50%,是变电站中数量最多的设备,其数据(如缺陷、带电检测、在线监测、预防性试验等数据)因此也是变电站中最为丰富的,且其运行状况与外绝缘情况(如瓷套外表面爬电)、高海拔情况(如密封系统渗漏油)等息息相关,故电容型设备数据呈现出多维度、大数量级、数据分散在多个数据系统中、数据较其余电气设备来说较为齐全,但呈现出一定的冗余等个性特点。现有数据分析工作,数据依赖人工手动获取,未解决数据源偏小的问题,导致数据分析的结论偏泛化,且数据分析工作的结论往往停留在预警层面,而未能体现到对现场运行设备开展监护,导致对生产工作的指导性差。如何高效,大量,自动的从电网系统中获取数据,是建设智能电网分析和预警平台的基础。网络数据获是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,主要任务是从一个或者若干初始URL开始,根据一定的搜索策略,不断从当前页面上抽取新的URL放入队列,根据一定的网页分析算法过滤与主题无关的链接,访问有关的链接并对网页进行存储、分析和过滤,直到系统达到某一条时停止。网络数据获取技术在很多领域有着广泛的应用,如搜索引擎,大数据分析与挖掘,互联网金融等。目前已经存在的数据获虫搜索算法主要有深度优先搜索,广度优先搜索和深广度优先搜索。根据不同的应用需求,开发相应的搜索策略,实现信息的高效率获取,是网络数据获的关键问题,其研究成果具有很高的应用价值,谷歌,百度是应用数据获技术最成功的公司。电网系统和一般的网站不同,具有保密性高,外网不可访问,结构复杂的特点,通用数据获技术不适用于庞大的电网系统,因此需要针对电网系统的特点设计特定的数据获系统。
技术实现思路
本专利技术的目的是针对电网的内部管理系统设计的一种基于自动化测试框架的数据获取系统。本专利技术分析南方电网管理系统的构成,页面结构和数据分布,针对电容型设备的特点,对南方电网企业管理系统中电容型设备相关的信息和数据进行自动化获取;根据管理系统的特性,使用自动化测试框架Selenium驱动浏览器访问系统;利用深广度结合的搜索策略,过滤无关URL进行获取;解析电容型设备相关的页面,建立数据库存储解析出的基本信息和数据。因而本专利技术技术方案为一种基于自动化测试框架的电网设备状态数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登陆模块包括:登陆环境检测模块和USB证书登录模块;所述任务调度模块通过分类获取任务,确定数据存在的子系统以及在子系统中存在的位置,处理页面跳转和查询相关信息的录入工作;所述页面解析模块负责将网页数据转化为树状的数据结构以高效率的查找和解析网页中关键信息;所述过滤模块按照过滤规则从待抓取队列中移除不相关的页面,减少访问页面数以提高数据获取效率;系统首先启动登陆模块登入系统,如果成功则调用任务调度模块跳转到相关的页面,查询数据,然后页面解析模块和过滤模块同时工作,得到相关的数据;所述任务调度模块的工作流程为首先确定抓取的路径,跳转到检索页后确定查询时间范围,再处理部门选择,然后选择地市局,最后触发查询动作,得到相应的工作报告;所述页面解析模块包括:页面树建立模块、信息抽取模块;页面树建立模块根据网页源代码建立树状的数据结构,用树的搜索算法提升网页元素的检索效率;信息抽取模块使用正则表达式字符串处理方法提取需要的信息。所述登录模块包括:环境测试模块、USBKey检测模块、用户信息记录模块;电网系统处于保密和安全考虑,隔离了外网,只能从电网内部的局域网访问,因此环境测试模块的作用为检测本数据获取系统是否处于电网的局域网中;同时,和一般的系统不同,电网系统无法使用管理员账号密码登录,采用安全系数更高的USB证书方式认证用户;电网内部有系统访问权限的员工配有相应权限的USB证书,USBKey检测模块检测电脑上是否安装证书,只有安装有证书的客户机才可登入电网系统;考虑到电网数据的安全性,登录系统后调用用户信息记录模块保存当前员工的资料和所要查询数据的相关信息,员工作为责任人对相关的数据负责。所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;因为电网的数据存在于不同的子系统中,确定抓取路径模块根据需要抓取的数据类型沿着不同的路径跳转到相应的页面;查询时间范围模块根据用户输入的时间范围自动处理查询时的时间范围选取;因为电网系统会读取cookie中保存的员工信息,在查询数据时会默认分配员工所在的部门,如果选择搜索部门对查询的结果会造成影响,部门选择模块用来检测搜索条件中的部门范围,如果有默认的部门则去掉,确保查询的结果包含所有部门;系统中的数据由各个地市局上传,以地市局为单位进行管理,地市局选择模块用来处理检索数据时的地市局选项,如果没有指定特定的地市局,则循环检索所有地市局,否则自动处理相关选定的地市局。所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块;关键字识别模块根据实际需求确定搜索的关键字和关键数据搜索范围,任何过滤检索得到的工作报告中不合格的报告,关键数据包括:电压大小、电流大小、电阻大小、电容大小、直流或交流;处理缺失值模块用来处理工作报告中空缺的表格,因为有的工作报告数据不全;网页标识模块采用深度优先搜索的方法,检索工作报告中和设备类型相关的关键字,若为出现关键字则将其从待获取队列中去掉。如电容型设备都会测试tanδ,如果报告中没有tanδ关键字,将其从待获取队列中去掉。本数据获取系统可以高效率,自动化的从南方电网管理系统中获取数据,比人工获取的效率更高,效果更好,是建设基于大数据管理的智能电网的基石。附图说明图1本专利技术一种基于自动化测试框架的电网管理数据获取系统的结构图。具体实施方式本专利技术一种基于自动化测试框架的电网管理数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登录模块包括:USBKey检测模块、环境测试模块、用户信息记录模块;所述任务调度模块包括:确定抓取路径模块、查询时间范围模块、部门选择模块、地市局选择模块;所述页面解析模块包括:页面树建立模块、信息抽取模块;所述过滤模块包括:关键字识别模块、处理缺失值模块、网页标识确定模块。下面详细说明本专利技术数据获取系统的工作过程。步骤1:登录模块利用自动化测试框架Selenium驱动32位的IEwebdriver,环境测试模块检测是否位于内部局域网,USBKey检测模块检测主机是否安装USB根证书,如果是,登陆管理系统,并启动用户信息记录模块;Selenium,是一个用于Web应用程序测试的框架,底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真实用户所做的一样。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、GoogleChrome等。电网内部管理系统的前端基于JSP设计。JSP全名本文档来自技高网
...

【技术保护点】
1.一种基于自动化测试框架的电网设备状态数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登陆模块包括:登陆环境检测模块和USB证书登录模块;所述任务调度模块通过分类获取任务,确定数据存在的子系统以及在子系统中存在的位置,处理页面跳转和查询相关信息的录入工作;所述页面解析模块负责将网页数据转化为树状的数据结构以高效率的查找和解析网页中关键信息;所述过滤模块按照过滤规则从待抓取队列中移除不相关的页面,减少访问页面数以提高数据获取效率;系统首先启动登陆模块登入系统,如果成功则调用任务调度模块跳转到相关的页面,查询数据,然后页面解析模块和过滤模块同时工作,得到相关的数据;所述任务调度模块的工作流程为首先确定抓取的路径,跳转到检索页后确定查询时间范围,再处理部门选择,然后选择地市局,最后触发查询动作,得到相应的工作报告;所述页面解析模块包括:页面树建立模块、信息抽取模块;页面树建立模块根据网页源代码建立树状的数据结构,用树的搜索算法提升网页元素的检索效率;信息抽取模块使用正则表达式字符串处理方法提取需要的信息。

【技术特征摘要】
1.一种基于自动化测试框架的电网设备状态数据获取系统,该获取系统包括:登录模块、任务调度模块、页面解析模块、过滤模块;所述登陆模块包括:登陆环境检测模块和USB证书登录模块;所述任务调度模块通过分类获取任务,确定数据存在的子系统以及在子系统中存在的位置,处理页面跳转和查询相关信息的录入工作;所述页面解析模块负责将网页数据转化为树状的数据结构以高效率的查找和解析网页中关键信息;所述过滤模块按照过滤规则从待抓取队列中移除不相关的页面,减少访问页面数以提高数据获取效率;系统首先启动登陆模块登入系统,如果成功则调用任务调度模块跳转到相关的页面,查询数据,然后页面解析模块和过滤模块同时工作,得到相关的数据;所述任务调度模块的工作流程为首先确定抓取的路径,跳转到检索页后确定查询时间范围,再处理部门选择,然后选择地市局,最后触发查询动作,得到相应的工作报告;所述页面解析模块包括:页面树建立模块、信息抽取模块;页面树建立模块根据网页源代码建立树状的数据结构,用树的搜索算法提升网页元素的检索效率;信息抽取模块使用正则表达式字符串处理方法提取需要的信息。2.如权利要求1所述的一种基于自动化测试框架的电网设备状态数据获取系统,其特征在于所述登录模块包括:环境测试模块、USBKey检测模块、用户信息记录模块;电网系统处于保密和安全考虑,隔离了外网,只能从电网内部的局域网访问,因此环境测试模块的作用为检测本数据获取系统是否处于电网的局域网中;同时,和一般的系统不同,电网系统无法使用管理员账号密码登录,采用安全系数更高的USB证书方式认证用户;电网内部有系统访问权限的...

【专利技术属性】
技术研发人员:郑泽忠杨加利彭晶王胜利钟平川张亚萌李江
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1