一种基于安全管控的网页数据爬取方法及系统技术方案

技术编号:31948601 阅读:65 留言:0更新日期:2022-01-19 21:40
本发明专利技术实施例提供一种基于安全管控的网页数据爬取方法及系统。该方法包括:基于待爬取网页建立任务配置文件,并获取预设查询指令集合;基于预设安全管控策略对所述任务配置文件进行安全重构,得到重构的任务配置文件;基于所述重构的任务配置文件获取所述待爬取网页的访问权限,并基于所述预设查询指令集合下载所述待爬取网页的目标数据本发明专利技术实施例通过提供具有安全管控系统的数据访问和下载方案,通过安全管控进行统一鉴权,定时任务自动执行,省去了人工访问的工作量,同时也提高了数据采集的及时性。数据采集的及时性。数据采集的及时性。

【技术实现步骤摘要】
一种基于安全管控的网页数据爬取方法及系统


[0001]本专利技术涉及安全管控
,尤其涉及一种基于安全管控的网页数据爬取方法及系统。

技术介绍

[0002]随着数字化发展,各公司均建立了一系列运用系统,如项目管理、crm、运维监控、运维管理、物业管理等,同时也建立了安全管控系统,进行统一鉴权管控。各系统由不同厂家建设,由于是独立的数据库存储和烟囱式建设,导致无法对各系统数据进行统一的分析和核查。
[0003]通过登录安全管控系统,然后访问到应用系统,实现一次登录多系统爬取。减少登录的繁琐工作,甚至一部分系统不让直接登录,必须通过安全管控系统登录后再次访问其他系统,如人工对各系统数据进行下载和解析,将是非常困难的事情。
[0004]因此,需要提出一种新的网络数据爬取的方法,解决上述问题。

技术实现思路

[0005]本专利技术实施例提供一种基于安全管控的网页数据爬取方法及系统,用以解决现有技术中存在的问题。
[0006]第一方面,本专利技术实施例提供一种基于安全管控的网页数据爬取方法,包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于安全管控的网页数据爬取方法,其特征在于,包括:基于待爬取网页建立任务配置文件,并获取预设查询指令集合;基于预设安全管控策略对所述任务配置文件进行安全重构,得到重构的任务配置文件;基于所述重构的任务配置文件获取所述待爬取网页的访问权限,并基于所述预设查询指令集合下载所述待爬取网页的目标数据。2.根据权利要求1所述的基于安全管控的网页数据爬取方法,其特征在于,所述预设查询指令集合包括安全管控的账号、密码、数据查询条件、文件命名规则、数据清洗规则、数据入库的数据库信息、临时库表信息和正式库表信息。3.根据权利要求1所述的基于安全管控的网页数据爬取方法,其特征在于,所述基于所述重构的任务配置文件获取所述待爬取网页的访问权限,并基于所述预设查询集合下载所述待爬取网页的目标数据,之后还包括:对所述目标数据进行自动数据流程处理,并将处理后的目标数据存储至目标数据库。4.根据权利要求1所述的基于安全管控的网页数据爬取方法,其特征在于,所述基于预设安全管控策略对所述任务配置文件进行安全重构,得到重构的任务配置文件,具体包括:设置安全管控登录界面;在所述安全管控登录界面选择对应的业务系统,获取预设网页参数集合;重构所述待爬取网页的URL,在所述任务配置文件中添加所述预设网页参数集合,得到所述重构的任务配置文件。5.根据权利要求1所述的基于安全管控的网页数据爬取方法,其特征在于,所述基于所述重构的任务配置文件获取所述待爬取网页的访问权限,并基于所述预设查询指令集合下载所述待爬取网页的目标数据,具体包括:基于所述重构的任务配置文件...

【专利技术属性】
技术研发人员:涂小华
申请(专利权)人:北京市天元网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1