网页反爬虫方法、装置、设备、存储介质及产品制造方法及图纸

技术编号:41824368 阅读:21 留言:0更新日期:2024-06-24 20:37
本申请提供一种网页反爬虫方法、装置、设备、存储介质及产品,涉及信息安全领域。该方法包括:通过向前端服务器发起第一页面请求,从而获取首屏HTML片段并对其渲染得到首屏页面内容,再向后端服务器发起第二页面请求,基于与所述后端服务器的交互获取非首屏HTML片段,渲染所述非首屏HTML片段得到非首屏页面内容,将所述首屏页面内容和所述非首屏页面内容进行拼接。本申请在前后端同构渲染过程中,前端服务器只返回首屏HTML片段而不返回完整HTML,浏览器向后端服务器进行页面其他HTML片段的请求,从而前端服务器只保留有首屏数据,能有效防止爬虫从前端服务器爬取数据,从根源上保障了网站的数据的安全。

【技术实现步骤摘要】

本申请涉及信息安全领域,尤其涉及一种网页反爬虫方法、装置、设备、存储介质及产品


技术介绍

1、在数字化信息时代,数据安全显得尤其重要,网站的数据如果保护不善,可能会被爬虫将数据盗取而造成数据泄露,也间接造成资产损失。一些用户访问量大的页面为了提升首屏性能,通常采用前后端同构渲染的方式来对首屏进行渲染,也即服务端渲染和客户端渲染相结合,对于这些前后端同构渲染的网页来说,其前端服务器由于没有参数校验,网页爬虫获取到前后端同构渲染页面的统一资源定位系统(uniform resource locator,url)后,直接访问该页面,服务端会把完整的超文本标记语言(hyper text markuplanguage,html)内容返回给爬虫,爬虫可以从html中分析并提取出它需要的信息。并且,如果某个网站能够被轻易爬取到有价值的内容,竞争对手会对这个网站更加感兴趣从而招致更多爬虫,使网站服务器压力剧增间接导致生产成本成倍上升,甚至把服务器资源耗尽导致网页不能正常访问。

2、目前网页反爬虫的手段包括高频反爬,服务端通过识别某个ip或者携带某段固定cook本文档来自技高网...

【技术保护点】

1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏HTML片段,包括:

3.根据权利要求2所述的方法,其特征在于,所述非首屏HTML片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏HTML片段是否渲染,所述布尔值默认为假值;

4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏HTML片段得到非首屏页面内容,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述首屏HTML片段进行渲染之后,还包括:</p>

6.一种...

【技术特征摘要】

1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏html片段,包括:

3.根据权利要求2所述的方法,其特征在于,所述非首屏html片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏html片段是否渲染,所述布尔值默认为假值;

4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏html片段得到非首屏页面内容,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述首屏html片段进行渲染之后,还包括:

6.一种网页反爬虫方法,其特征在于,该方法应用于前端服务器,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述页面数据拼接生成首屏html片段,包括:

8.一种网页反爬虫方法,其特征...

【专利技术属性】
技术研发人员:赵成冬成玉龙马啸风
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1