网页数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28478050 阅读:8 留言:0更新日期:2021-05-15 21:47
本申请涉及一种网页数据处理方法、装置、计算机设备和存储介质。所述方法涉及云技术的云安全服务,所述方法包括:获取响应于网页访问请求生成的原始响应数据,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,获取依据字符编码文件及字符映射关系生成的反混淆字符文件,根据混淆内容和反混淆字符文件生成混淆响应数据,返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。采用本方法能够有效防止恶意爬虫的攻击,提高信息安全性。提高信息安全性。提高信息安全性。

【技术实现步骤摘要】
网页数据处理方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]网络爬虫是按照特定规则,自动地抓取万维网信息的程序或者脚本。随着计算机技术和互联网技术的飞速发展,出现了恶意爬虫,恶意爬虫在于通过爬取万维网信息来攫取不正当竞争的优势,甚至是牟取不法利益。
[0003]在传统的反爬虫方法中,一般是通过分析访问者的访问频率、动作行为等,来判断访问者是否为恶意爬虫,若判定为恶意爬虫,则直接阻断访问。但是,这种方法存在误拦截的可能性。还有一些方法是通过输入验证码等验证方式来提升访问难度。但是,这种方法不仅给正常的访问用户带来不便,恶意爬虫也比较容易绕过各种验证方式。可以看出,传统的反爬虫方法存在反爬虫有效性低的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升反爬虫有效性的网页数据处理方法、装置、计算机设备和存储介质。
[0005]一种网页数据处理方法,该方法包括:获取响应于网页访问请求生成的原始响应数据;按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0006]一种网页数据处理装置,该装置包括:获取模块,用于获取响应于网页访问请求生成的原始响应数据;混淆处理模块,用于按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;返回模块,用于返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0007]在一个实施例中,混淆处理模块还用于:从原始响应数据中提取敏感内容;查询字符映射关系,获得与敏感内容中的字符对应的混淆字符;按照混淆字符替换敏感内容中的
相应字符后,得到与敏感内容对应的混淆内容。
[0008]在一个实施例中,混淆处理模块还用于:从原始响应数据中查找敏感内容标识字段;将敏感内容标识字段标注的内容作为敏感内容。
[0009]在一个实施例中,混淆处理模块还用于:基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;按照动态字符映射关系,对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容。
[0010]在一个实施例中,混淆处理模块还用于:获取本次混淆处理对应的随机因子;按照随机因子调整原始字符映射关系,得到本次混淆处理对应的动态字符映射关系。
[0011]在一个实施例中,混淆处理模块还用于:获取网页访问请求的请求时间;确定与请求时间对应的动态随机因子;根据动态随机因子对原始字符映射关系进行调整,得到本次混淆处理对应的动态字符映射关系。
[0012]在一个实施例中,字符编码文件包括字符与字符编码之间的映射关系;混淆处理模块还用于:根据字符映射关系,调整字符编码文件包括的字符与字符编码之间的映射关系,得到反混淆字符文件。
[0013]在一个实施例中,混淆处理模块还用于:利用混淆内容替换原始响应数据中的敏感内容;根据替换后的原始响应数据以及反混淆字符文件生成混淆响应数据。
[0014]在一个实施例中,混淆响应数据还包括反混淆渲染标识字段;混淆处理模块还用于:将混淆响应数据返回至发起网页访问请求的终端;通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0015]在一个实施例中,混淆处理模块还用于:通过终端接收混淆响应数据,并在遍历到混淆响应数据中的反混淆渲染标识字段时,提取混淆响应数据的混淆内容中的字符对应的字符编码,从反混淆字符文件包括的字符与字符编码之间的映射关系中,查找与字符编码对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0016]在一个实施例中,获取模块还用于:获取终端发送的网页访问请求,将网页访问请求转发至网页服务器;接收网页服务器响应于网页访问请求生成的原始响应数据;网页数据处理装置还包括转发模块,转发模块用于:获取网页访问请求指向的访问路径及反恶意攻击路径列表;当网页访问请求指向的访问路径不属于反恶意攻击路径列表中的路径时,则将原始响应数据转发至终端;当网页访问请求指向的访问路径属于反恶意攻击路径列表中的路径时,将混淆响应数据转发至终端。
[0017]在一个实施例中,网页数据处理装置还包括配置模块,配置模块用于:通过终端在网页中显示反恶意攻击路径的配置控件;响应于对配置控件的触发操作,进入反恶意攻击路径的配置页面;在配置页面中,获取输入的反恶意攻击路径;根据输入的反恶意攻击路径获得反恶意攻击路径列表。
[0018]一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:获取响应于网页访问请求生成的原始响应数据;按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;
获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0019]一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取响应于网页访问请求生成的原始响应数据;按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容;获取依据字符编码文件及字符映射关系生成的反混淆字符文件;根据混淆内容和反混淆字符文件生成混淆响应数据;返回响应于网页访问请求的混淆响应数据,混淆响应数据用于指示按照反混淆字符文件确定与混淆内容中的字符对应的反混淆字符后,按照反混淆字符展示原始响应数据中的敏感内容。
[0020]一种计算机程序,计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述网页数据处理方法的步骤。
[0021]上述网页数据处理方法、装置、计算机设备和存储介质,获取到响应于网页访问请求生成的原始响应数据之后,按照字符映射关系对原始响应数据中的敏感内容进行混淆处理,得到与敏感内容对应的混淆内容,这样可以使恶意爬虫爬取错误内容再获取依本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页数据处理方法,其特征在于,所述方法包括:获取响应于网页访问请求生成的原始响应数据;按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容;获取依据字符编码文件及所述字符映射关系生成的反混淆字符文件;根据所述混淆内容和所述反混淆字符文件生成混淆响应数据;返回响应于所述网页访问请求的所述混淆响应数据,所述混淆响应数据用于指示按照所述反混淆字符文件确定与所述混淆内容中的字符对应的反混淆字符后,按照所述反混淆字符展示所述原始响应数据中的所述敏感内容。2.根据权利要求1所述的方法,其特征在于,所述按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容,包括:从所述原始响应数据中提取所述敏感内容;查询所述字符映射关系,获得与所述敏感内容中的字符对应的混淆字符;按照所述混淆字符替换所述敏感内容中的相应字符后,得到与所述敏感内容对应的混淆内容。3.根据权利要求2所述的方法,其特征在于,所述从所述原始响应数据中提取所述敏感内容,包括:从所述原始响应数据中查找敏感内容标识字段;将所述敏感内容标识字段标注的内容作为所述敏感内容。4.根据权利要求1所述的方法,其特征在于,所述按照字符映射关系对所述原始响应数据中的敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容,包括:基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系;按照所述动态字符映射关系,对所述原始响应数据中的所述敏感内容进行混淆处理,得到与所述敏感内容对应的混淆内容。5.根据权利要求4所述的方法,其特征在于,所述基于预设的原始字符映射关系,生成本次混淆处理对应的动态字符映射关系,包括:获取本次混淆处理对应的随机因子;按照所述随机因子调整所述原始字符映射关系,得到本次混淆处理对应的所述动态字符映射关系。6.根据权利要求5所述的方法,其特征在于,所述按照所述随机因子调整所述原始字符映射关系,得到本次混淆处理对应的所述动态字符映射关系,包括:获取所述网页访问请求的请求时间;确定与所述请求时间对应的动态随机因子;根据所述动态随机因子对所述原始字符映射关系进行调整,得到本次混淆处理对应的所述动态字符映射关系。7.根据权利要求1所述的方法,其特征在于,所述字符编码文件包括字符与字符编码之间的映射关系;所述方法还包括:根据所述字符映射关系,调整所述字符编码文件包括的所述字符与字符编码之间的映
射关系,得到所述反混淆字符文件。8.根据权利要求1所述的方法,其特征在于,所述根据所述混淆内容和所述反混淆字符文件生成混淆响应数据,包括:利用所述混淆内容替换所述原始响应数据中的所述敏感内容;根据替换后的所述原始响应数据以及所述反混淆字符文件生成所述混淆响应数据。9.根据权利要求8所述的方法,其特征在于,所述混淆响应数据还包括反混淆渲染标识字段;所述方法还包括:将所述混淆响应数据返回至发起所...

【专利技术属性】
技术研发人员:梁思健
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1