一种非侵入式的网站内容保护方法技术

技术编号：22444733 阅读：25 留言：0更新日期：2019-11-02 04:36

本发明专利技术公开了一种非侵入式的网站内容保护方法，用于对于机器批量化的内容摘录于结构化进行防护处理。该机制借助前端浏览器的一系列技术，本方法处理机制，完成在不修改原有系统程序的情况下，完成对网站内容的保护，有效的阻碍爬虫于采集工具的批量爬取数据并将数据有意义化。该机制使用了，脚本拦截转发，样式拦截处理，数据再加工，通过高斯定理原理，完成对网站页面的重新渲染，目的是让机器获得网页数据的过程变得不确定，且无法模式匹配。

A non-invasive method of protecting website content

全部详细技术资料下载

【技术实现步骤摘要】
一种非侵入式的网站内容保护方法
本专利技术涉及网站内容保护
，尤其涉及一种非侵入式的网站内容保护方法。
技术介绍
处于互联网中的公开网站，内容是公开被人流量与查看的，但是对于某些浏览人来说，基于数据分析或其他目的，其经常采用技术手段获取网站内容，通过计算机程序批量的对网站内容进行搜集整理，此种行为通常会对网站的运行造成恶劣影响。网站内容保护的一个通常做法为通过识别来访问的请求是否为计算机程序从而进行阻拦或非阻拦处理，这种做法能够产生一定效果，但是，会存在一定的误伤与误判；同时，随着撰写计算机程序的人员的水平的提高，网站识别计算机爬虫的难度也逐渐加大；另外，有些网站利用页面内容的替换，或字体的混淆使得计算机程序搜集的网页数据无法正常理解，或乱序，或内容不正确。但高级的爬虫程序员，可以通过分析该内容替换规律与机制，进行破解，从而利用程序逆向网站内容规则，达到正确识别搜集网站内容的目的。鉴于上述，如何对网站内容进行有效保护成为业界人群技术公关的一个方向。
技术实现思路
基于上述目的，本专利技术提供了一种非侵入式的网站内容保护方法。为实现本专利技术的目的，本专利技术提供...

【技术保护点】
1.一种非侵入式的网站内容保护方法，其特征是：所述方法包括如下步骤：步骤S01:托管所有网站的访问请求，用于实现在网站请求达到服务器之前，反馈回客户端之前，能够对访问请求进行处理；步骤S02:针对访问请求数据进行数据处理与记录，标记访问请求的类型；步骤S03:针对页面执行类型的访问请求采用用户甄别技术，找到对应页面的全部请求链，并进行标记；步骤S04:对于伴随着css文件或js文件进行的页面执行类型的访问请求，作为保护处理目标；步骤S05:对于作为保护处理目标的访问请求，对请求的数据进行处理后返回给前台浏览器；其中，前台浏览器渲染的新的数据在视觉上与原有页面内容相同，但在实际字符编码上完全不同...

【技术特征摘要】
1.一种非侵入式的网站内容保护方法，其特征是：所述方法包括如下步骤：步骤S01:托管所有网站的访问请求，用于实现在网站请求达到服务器之前，反馈回客户端之前，能够对访问请求进行处理；步骤S02:针对访问请求数据进行数据处理与记录，标记访问请求的类型；步骤S03:针对页面执行类型的访问请求采用用户甄别技术，找到对应页面的全部请求链，并进行标记；步骤S04:对于伴随着css文件或js文件进行的页面执行类型的访问请求，作为保护处理目标；步骤S05:对于作为保护处理目标的访问请求，对请求的数据进行处理后返回给前台浏览器；其中，前台浏览器渲染的新的数据在视觉上与原有页面内容相同...

【专利技术属性】
技术研发人员：郝缙，刘鑫，郭兴华，单学钟，李禹霆，尹璐，吴晓庆，
申请(专利权)人：博雅创智天津科技有限公司，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人