【技术实现步骤摘要】
本申请涉及信息安全领域,尤其涉及一种网页反爬虫方法、装置、设备、存储介质及产品。
技术介绍
1、在数字化信息时代,数据安全显得尤其重要,网站的数据如果保护不善,可能会被爬虫将数据盗取而造成数据泄露,也间接造成资产损失。一些用户访问量大的页面为了提升首屏性能,通常采用前后端同构渲染的方式来对首屏进行渲染,也即服务端渲染和客户端渲染相结合,对于这些前后端同构渲染的网页来说,其前端服务器由于没有参数校验,网页爬虫获取到前后端同构渲染页面的统一资源定位系统(uniform resource locator,url)后,直接访问该页面,服务端会把完整的超文本标记语言(hyper text markuplanguage,html)内容返回给爬虫,爬虫可以从html中分析并提取出它需要的信息。并且,如果某个网站能够被轻易爬取到有价值的内容,竞争对手会对这个网站更加感兴趣从而招致更多爬虫,使网站服务器压力剧增间接导致生产成本成倍上升,甚至把服务器资源耗尽导致网页不能正常访问。
2、目前网页反爬虫的手段包括高频反爬,服务端通过识别某个ip或者
...【技术保护点】
1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏HTML片段,包括:
3.根据权利要求2所述的方法,其特征在于,所述非首屏HTML片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏HTML片段是否渲染,所述布尔值默认为假值;
4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏HTML片段得到非首屏页面内容,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述首屏HTML片段进行渲染之后,还包括:<
...【技术特征摘要】
1.一种网页反爬虫方法,其特征在于,该方法应用于浏览器,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于与所述后端服务器的交互获取非首屏html片段,包括:
3.根据权利要求2所述的方法,其特征在于,所述非首屏html片段中设置有布尔值,所述布尔值的真值和假值用于表示所述非首屏html片段是否渲染,所述布尔值默认为假值;
4.根据权利要求3所述的方法,其特征在于,所述渲染所述非首屏html片段得到非首屏页面内容,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述首屏html片段进行渲染之后,还包括:
6.一种网页反爬虫方法,其特征在于,该方法应用于前端服务器,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述页面数据拼接生成首屏html片段,包括:
8.一种网页反爬虫方法,其特征...
【专利技术属性】
技术研发人员:赵成冬,成玉龙,马啸风,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。