一种基于网络爬虫机制的数据抽取方法技术

技术编号:23558295 阅读:33 留言:0更新日期:2020-03-25 03:53
本发明专利技术提出一种主动获取数据的方式,即一种基于网络爬虫机制的数据抽取方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。本发明专利技术的一种基于网络爬虫机制的数据抽取方法包括如下步骤:步骤一,对各个异构系统的人机界面中的监控数据添加标记;步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。

A data extraction method based on web crawler mechanism

【技术实现步骤摘要】
一种基于网络爬虫机制的数据抽取方法
本专利技术属于信息化
,特别涉及一种基于网络爬虫机制的数据抽取方法。
技术介绍
现有监控平台类型不一、造成数据获取方式不一、监控深度不同,难以规划企业级的整体监控平台。本质上,对于企业级应用,核心是需要的监控数据,对于现有监控平台的监控深度、页面形式、访问方法等都不关注。而目前获取数据的方式主要以API方式为主。但这种方式是一种被动方式,即监控平台提供什么API则可获得什么数据,无形中增大了数据获取的难度,限制了其范围,同时,对于现有的人工上传的文本等仅能够当其转换为相应的数据格式后才能获取。
技术实现思路
本专利技术提出一种主动获取数据的方式,即一种基于网络爬虫机制的数据抽取方法,能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。本专利技术的一种基于网络爬虫机制的数据抽取方法的技术方案如下:一种基于网络爬虫机制的数据抽取方法,包括如下步骤:步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“A_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在HTML代码中将此标记设置到某个<div>标签的id中去;步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。本专利技术的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为XMLSchemaDefinition,所述标准数据格式文件为xml文件。进一步的,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。附图说明图1是本专利技术的一种基于网络爬虫机制的数据抽取方法的流程示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。根据下面说明和权利要求书,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。实施例1:参考图1,本实施例的一种基于网络爬虫机制的数据抽取方法,包括如下步骤:步骤一,对各个异构系统的人机界面中的监控数据添加标记;标记可以是预先定义好的,如一号异构系统的一号设施的温度监控数据的标记可定义为“A_a_001_wd”;如果异构系统的人机界面为html形式,那么就可在HTML代码中将此标记设置到某个<div>标签的id中去;步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。本实施例的一种基于网络爬虫机制的数据抽取方法,在各个异构系统的人机界面中的监控数据添加标记,为爬虫程序提供目标指引,形成一种主动获取数据的方式,24小时对所有异构系统进行自动化数据抽取工作,从而能够迅速从现有监控平台上抽取大量数据,快速构件企业级别的大数据环境。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对各个文档中的监控数据添加标记。对各个文档中的监控数据添加标记后,文档的监控数据也能被爬虫算法抓取,而从与各个异构系统的人机界面中的监控数据融合在一起。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。不同的监控数据往往需要不同的抓取频率,因此,对监控数据进行分级并对不同级别的监控数据设置不同的抓取周期能有效提高数据采集的效率。例如,可以根据数据的性质进行分级,也可以根据各个异构系统的重要程度进行分级。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,步骤一还包括,建立监控数据的数据模式定义;还包括步骤三,通过数据转换系统对抓取获得的监控数据的数据类型、显示方式进行数据转换,生成符合数据模式定义的标准数据格式文件。根据企业数据标准建立数据模式定义,可以规范接入的信息系统的数据接入标准,为将来的信息系统开发提供了规范的数据格式参考依据。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,还包括步骤四,将标准数据格式文件读取到计算机系统,经程序处理保存到数据库中。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述数据模式定义为XMLSchemaDefinition,所述标准数据格式文件为xml文件。作为较佳的实施方式,所述的一种基于网络爬虫机制的数据抽取方法中,具体的,所述异构系统的人机界面为HTML形式;所述文档为word形式或excel形式或pdf形式。上述描述仅是对本专利技术较佳实施例的描述,并非对本专利技术范围的任何限定,本领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。本文档来自技高网...

【技术保护点】
1.一种基于网络爬虫机制的数据抽取方法,其特征在于,包括如下步骤:/n步骤一,对各个异构系统的人机界面中的监控数据添加标记;/n步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。/n

【技术特征摘要】
1.一种基于网络爬虫机制的数据抽取方法,其特征在于,包括如下步骤:
步骤一,对各个异构系统的人机界面中的监控数据添加标记;
步骤二,根据所述标记,采用爬虫算法对所述监控数据进行抓取。


2.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对各个文档中的监控数据添加标记。


3.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一中还包括,对监控数据进行分级;步骤二中还包括,对不同级别的监控数据设置不同的抓取周期。


4.如权利要求1所述的基于网络爬虫机制的数据抽取方法,其特征在于,步骤一还包括,建立监控数据的数据模式定义;还...

【专利技术属性】
技术研发人员:贺洪煜房霆宸赵一鸣陈渊鸿吴联定
申请(专利权)人:上海建工集团股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1