一种基于浏览器插件实现网页读写的装置制造方法及图纸

技术编号:36342828 阅读:54 留言:0更新日期:2023-01-14 17:56
本发明专利技术提供一种基于浏览器插件实现网页读写的装置,属于网路爬虫技术领域,本发明专利技术分为三个模块,浏览器插件模块、任务管理模块、数据处理模块。浏览器插件模块为前端模块,安装部署在浏览器上,主要负责对网页数据读取和回写操作。任务管理模块负责网页读、写任务的配置、下发启动和结束等生命流程管理。数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。可有效的避免反爬虫设置。设置。设置。

【技术实现步骤摘要】
一种基于浏览器插件实现网页读写的装置


[0001]本专利技术涉及网路爬虫
,尤其涉及一种基于浏览器插件实现网页读写的装置。

技术介绍

[0002]随着信息化、互联网的大力发展,web服务承载了海量的数据,如何从海量数据中提取所需数据进行分类、归纳、总结、分析成为一个比较关键的问题。
[0003]同时各部门在信息化建设过程中完成了一个又一个信息化系统的建设,但是不同程度的都会遇到信息孤岛,系统之间无法打通,数据无法互联互通的问题。
[0004]目前一种比较通用的方式是通过网络爬虫来实现数据的获取或者模拟提交上传,但是出于网络安全和web服务稳定性的考虑,互联网服务或者信息化系统建设过程中会进行一系列的反爬加固操作。现在很多网页内容不能直接通过最初的Http请求直接获取,而是在返回的html页面中通过JS加载资源及计算动态生成的页面,同时数据提交的过程中也会涉及到原始数据加工后再提交的问题。
[0005]浏览器插件可以拓展浏览器的功能,主要包括:获取网页内容、捕捉http报文、修改浏览器地址栏网址、打开关闭tab页面、与别的站点通信、修改网页内容、模拟人工点击等。
[0006]目前主流浏览器chrome、edge、360系列浏览器都开放了插件编辑功能使得开发者能够在浏览器中执行自定义的js代码,通过自定义的js代码可以在页面上获取数据,或者修改网页内容进行提交。
[0007]基于浏览器插件读写网页数据可以绕过反爬设置,方便的对网页数据进行读写。

技术实现思路

[0008]为了解决以上技术问题,本专利技术提供了一种基于浏览器插件实现网页读写的装置。解决了海量数据下精准获取所需数据难度高的问题,该装置可绕过反爬虫设置直接通过对网页的分析或者修改来实现数据的获取和提交。
[0009]本专利技术的技术方案是:
[0010]一种基于浏览器实现网页读写的装置,包括浏览器插件模块、任务管理模块、数据处理模块;
[0011]浏览器插件模块为前端模块,安装部署在浏览器上,负责对网页数据读取和回写操作;
[0012]任务管理模块负责网页读、写任务的配置、下发启动和结束的生命流程管理;
[0013]数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。
[0014]进一步的,
[0015]网页数据读取包括以下步骤:
[0016]S1插件安装,间隔五秒发送心跳至任务管理模块。
[0017]S2插件轮询等待任务下发启动。
[0018]S3任务管理模块配置读任务,配置内容为web页面的url,配置网页解析模板,勾选插件终端,下发任务。
[0019]S4插件接收到读任务,打开url,加载web页面,页面加载完毕后,插件根据解析模板对网页进行解析,解析成json数据。
[0020]S5插件将解析后的json数据上传至数据处理模块。
[0021]S6数据处理模块接收到json数据后根据网页元素与数据库表对应关系及转换规则进行转换,然后数据入库。
[0022]所述步骤S1中插件安装时会配置插件安装的浏览器类型是chrome、edge还是360,同时为每一个浏览器插件终端配置一个id,id由装置任务管理器维护生成。插件安装启动后每隔5会发送心跳数据至任务管理模块,心跳数据主要是包括浏览器类型、插件id,告知任务管理模块插件是否正常运行。
[0023]所述步骤S2中插件在无任务执行时会根据配置间隔时间执行任务轮询,轮询任务时传递插件id。
[0024]所述步骤S3中读任务配置时需要配置web页面的url,然后配置网页解析模板,是根据网页元素id、网页dom树形结构还是根据网元素属性进行读取,读取哪些元素。同时配置任务与数据库表名对应关系,网页元素与表字段对应关系以及转换规则。勾选浏览器插件终端来确定哪些浏览器插件来执行任务。
[0025]所述步骤S4中插件根据解析模板对网页进行解析并形成json数据。
[0026]所述步骤S6中数据处理模块在接收到json数据后根据网页元素与数据库表对应关系及转换规则进行转换,然后数据入库。
[0027]进一步的,
[0028]网页数据回写包括以下步骤:
[0029]S1插件安装,间隔五秒发送心跳至任务管理模块。
[0030]S2插件轮询等待任务下发启动。
[0031]S3任务管理模块配置写任务,配置内容为web页面的url,同时配置回写任务表信息,表名以及配置回写上传模板,下发任务。
[0032]S4插件接收到写任务后,向数据处理模块发送restful请求,请求一条回写数据。
[0033]S5数据处理模块接收到插件的数据请求后,数据处理模块根据任务配置的表名去数据库查询待处理数据,根据网页元素与数据库表对应关系及转换规则进行转换,然后返回给浏览器插件。
[0034]S6浏览器插件根据上传模板将数据回写到网页,模拟点击提交操作将数据提交,然后将提交成功结果返回至数据处理模块。
[0035]S7数据处理模块接收到成功消息后更新此条数据为已处理完成,查询待处理数据,如果待处理数据不为空下发给插件继续S3、S4的步骤直至待处理数据全部回写完成。
[0036]S8待处理数据全部回写完成后通知任务管理模块此次任务完成。
[0037]本专利技术的有益效果是
[0038]可以通过任务配置,读取和回写模板配置以及数据库表结构与网页元素映射关系
及数据格式转换配置很方便的实现网页数据的自动化获取和回写。
[0039]通过网页插件来进行数据读写模拟人工操作有效的避免了反爬虫设置。对于信息系统之间的数据互联互通是一种有效的工具。
附图说明
[0040]图1是本专利技术的模块结构示意图;
[0041]图2是网页数据读取流程示意图;
[0042]图3是网页数据回写流程示意图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]本专利技术主要分为三个模块,浏览器插件模块、任务管理模块、数据处理模块。浏览器插件模块为前端模块,安装部署在浏览器上,主要负责对网页数据读取和回写操作。任务管理模块负责网页读、写任务的配置、下发启动和结束等生命流程管理。数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。
[0045]1、装置模块
[0046]1.1浏览器插件模块
[0047]浏览器插件模块为前端模块,安装部署在浏览器上,主要负责对网页数据读取和回写操作。插件支持chrome、edge、360浏览器系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于浏览器实现网页读写的装置,其特征在于:包括浏览器插件模块、任务管理模块、数据处理模块;浏览器插件模块为前端模块,安装部署在浏览器上,负责对网页数据读取和回写操作;任务管理模块负责网页读、写任务的配置、下发启动和结束的生命流程管理;数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。2.根据权利要求1所述的装置,其特征在于,网页数据读取包括以下步骤:S1插件安装,间隔五秒发送心跳至任务管理模块;S2插件轮询等待任务下发启动;S3任务管理模块配置读任务,配置内容为web页面的url,配置网页解析模板,勾选插件终端,下发任务;S4插件接收到读任务,打开url,加载web页面,页面加载完毕后,插件根据解析模板对网页进行解析,解析成json数据;S5插件将解析后的json数据上传至数据处理模块;S6数据处理模块接收到json数据后根据网页元素与数据库表对应关系及转换规则进行转换,然后数据入库。3.根据权利要求2所述的装置,其特征在于,所述步骤S1中插件安装时会配置插件安装的浏览器类型是chrome、edge或360,同时为每一个浏览器插件终端配置一个id,id由装置任务管理器维护生成;插件安装启动后每隔5会发送心跳数据至任务管理模块;告知任务管理模块插件是否正常运行。4.根据权利要求3所述的装置,其特征在于,所述步骤S2中插件在无任务执行时会根据配置间隔时间执行任务轮询,轮询任务时传递插件id。5.根据权利要求4所述的装置,其特征在于,所述步骤S3中读任务配置时需要配置web页面的url,然后配置网页解析模板,是根据网页元素id、网页dom树形结构还是根据网元素属性进行读取,读取哪些元素;同时配置任...

【专利技术属性】
技术研发人员:韩同谢涛涛田雨
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1