【技术实现步骤摘要】
一种基于浏览器插件实现网页读写的装置
[0001]本专利技术涉及网路爬虫
,尤其涉及一种基于浏览器插件实现网页读写的装置。
技术介绍
[0002]随着信息化、互联网的大力发展,web服务承载了海量的数据,如何从海量数据中提取所需数据进行分类、归纳、总结、分析成为一个比较关键的问题。
[0003]同时各部门在信息化建设过程中完成了一个又一个信息化系统的建设,但是不同程度的都会遇到信息孤岛,系统之间无法打通,数据无法互联互通的问题。
[0004]目前一种比较通用的方式是通过网络爬虫来实现数据的获取或者模拟提交上传,但是出于网络安全和web服务稳定性的考虑,互联网服务或者信息化系统建设过程中会进行一系列的反爬加固操作。现在很多网页内容不能直接通过最初的Http请求直接获取,而是在返回的html页面中通过JS加载资源及计算动态生成的页面,同时数据提交的过程中也会涉及到原始数据加工后再提交的问题。
[0005]浏览器插件可以拓展浏览器的功能,主要包括:获取网页内容、捕捉http报文、修改浏览器地址栏网址、 ...
【技术保护点】
【技术特征摘要】
1.一种基于浏览器实现网页读写的装置,其特征在于:包括浏览器插件模块、任务管理模块、数据处理模块;浏览器插件模块为前端模块,安装部署在浏览器上,负责对网页数据读取和回写操作;任务管理模块负责网页读、写任务的配置、下发启动和结束的生命流程管理;数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。2.根据权利要求1所述的装置,其特征在于,网页数据读取包括以下步骤:S1插件安装,间隔五秒发送心跳至任务管理模块;S2插件轮询等待任务下发启动;S3任务管理模块配置读任务,配置内容为web页面的url,配置网页解析模板,勾选插件终端,下发任务;S4插件接收到读任务,打开url,加载web页面,页面加载完毕后,插件根据解析模板对网页进行解析,解析成json数据;S5插件将解析后的json数据上传至数据处理模块;S6数据处理模块接收到json数据后根据网页元素与数据库表对应关系及转换规则进行转换,然后数据入库。3.根据权利要求2所述的装置,其特征在于,所述步骤S1中插件安装时会配置插件安装的浏览器类型是chrome、edge或360,同时为每一个浏览器插件终端配置一个id,id由装置任务管理器维护生成;插件安装启动后每隔5会发送心跳数据至任务管理模块;告知任务管理模块插件是否正常运行。4.根据权利要求3所述的装置,其特征在于,所述步骤S2中插件在无任务执行时会根据配置间隔时间执行任务轮询,轮询任务时传递插件id。5.根据权利要求4所述的装置,其特征在于,所述步骤S3中读任务配置时需要配置web页面的url,然后配置网页解析模板,是根据网页元素id、网页dom树形结构还是根据网元素属性进行读取,读取哪些元素;同时配置任...
【专利技术属性】
技术研发人员:韩同,谢涛涛,田雨,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。