网页反爬虫方法、装置、设备、存储介质及产品制造方法及图纸

技术编号：41824368 阅读：21 留言：0更新日期：2024-06-24 20:37

本申请提供一种网页反爬虫方法、装置、设备、存储介质及产品，涉及信息安全领域。该方法包括：通过向前端服务器发起第一页面请求，从而获取首屏HTML片段并对其渲染得到首屏页面内容，再向后端服务器发起第二页面请求，基于与所述后端服务器的交互获取非首屏HTML片段，渲染所述非首屏HTML片段得到非首屏页面内容，将所述首屏页面内容和所述非首屏页面内容进行拼接。本申请在前后端同构渲染过程中，前端服务器只返回首屏HTML片段而不返回完整HTML，浏览器向后端服务器进行页面其他HTML片段的请求，从而前端服务器只保留有首屏数据，能有效防止爬虫从前端服务器爬取数据，从根源上保障了网站的数据的安全。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息安全领域，尤其涉及一种网页反爬虫方法、装置、设备、存储介质及产品。

技术介绍

1、在数字化信息时代，数据安全显得尤其重要，网站的数据如果保护不善，可能会被爬虫将数据盗取而造成数据泄露，也间接造成资产损失。一些用户访问量大的页面为了提升首屏性能，通常采用前后端同构渲染的方式来对首屏进行渲染，也即服务端渲染和客户端渲染相结合，对于这些前后端同构渲染的网页来说，其前端服务器由于没有参数校验，网页爬虫获取到前后端同构渲染页面的统一资源定位系统(uniform resource locator，url)后，直接访问该页面，服务端会把完整的超文本标记语言(hyper text markuplanguage，html)内容返回给爬虫，爬虫可以从html中分析并提取出它需要的信息。并且，如果某个网站能够被轻易爬取到有价值的内容，竞争对手会对这个网站更加感兴趣从而招致更多爬虫，使网站服务器压力剧增间接导致生产成本成倍上升，甚至把服务器资源耗尽导致网页不能正常访问。

2、目前网页反爬虫的手段包括高频反爬，服务端通过识别某个ip或者...

【技术保护点】

1.一种网页反爬虫方法，其特征在于，该方法应用于浏览器，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于与所述后端服务器的交互获取非首屏HTML片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述非首屏HTML片段中设置有布尔值，所述布尔值的真值和假值用于表示所述非首屏HTML片段是否渲染，所述布尔值默认为假值；

4.根据权利要求3所述的方法，其特征在于，所述渲染所述非首屏HTML片段得到非首屏页面内容，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述首屏HTML片段进行渲染之后，还包括：</p>

6.一种...

【技术特征摘要】

1.一种网页反爬虫方法，其特征在于，该方法应用于浏览器，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于与所述后端服务器的交互获取非首屏html片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述非首屏html片段中设置有布尔值，所述布尔值的真值和假值用于表示所述非首屏html片段是否渲染，所述布尔值默认为假值；

4.根据权利要求3所述的方法，其特征在于，所述渲染所述非首屏html片段得到非首屏页面内容，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述首屏html片段进行渲染之后，还包括：

6.一种网页反爬虫方法，其特征在于，该方法应用于前端服务器，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述页面数据拼接生成首屏html片段，包括：

8.一种网页反爬虫方法，其特征...

【专利技术属性】
技术研发人员：赵成冬，成玉龙，马啸风，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人