一种防止博客被网络爬虫检索的方法和装置制造方法及图纸

技术编号:15841348 阅读:50 留言:0更新日期:2017-07-18 16:59
本申请公开了一种防止博客被网络爬虫检索的方法和装置。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。

Method and device for preventing blog from being retrieved by network crawler

The present invention discloses a method and a device for preventing blog from being retrieved by web crawler. After receiving the visitor's access request, the method encrypts the page number of the blog to generate the corresponding string of the page number, and generates the corresponding network link according to the generated string. Because the string is generated by the method of encryption, so that visitors can only click through to the blog to blog page page access, unable to use web crawler to stitch the page link, thereby preventing a lot of Blog search web crawler.

【技术实现步骤摘要】
一种防止博客被网络爬虫检索的方法和装置
本申请涉及网络信息管理领域,更具体地说,涉及一种防止博客被网络爬虫检索的方法和装置。
技术介绍
在这个信息时代,数据资源显得格外重要。网络爬虫该类的脚本程序使得检索网络信息资源变得更加方便。许多网站上的资源很容易被人给检索过去。以博客为例子,博客入驻了很多知名的名家,每个博主都拥有较多的文章。这时候其他小网站的要搜集这些资源只要一个写一个网络爬虫的脚本,该网络爬虫脚本可根据博客某文章列表分页的URL进行修改页码拼接得到所有文章列表分页的URL,就能加载所有博客文章的内容一次把文章给复制过去,显然,这对于网络公司来说很不利。在现在一般防止被爬虫的方法一般是通过限制IP的访问,比如一个IP一秒钟内不能连续加载两个文章内容或者文章页列表,或者写一个脚本,把一些经常用来检索数据的IP给加入黑名单,限制访问,但是这样的效果并不好,尽管做了时间限制,然后别人每次延迟加载一秒钟,照样可以完整的爬取内容。所以,这时候需要有更好的防止网络爬虫的方法。
技术实现思路
有鉴于此,本申请提供一种防止博客被网络爬虫检索的方法和装置,以防止博客被网络爬虫检索。为了实现上述目的,现提出的方案如下:一种防止网络博客被网络爬虫检索的方法,包括:接收访客发送的访问请求;基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;允许访客访问博客主页。优选的,所述将所述字符串添加到所述页码对应的网络链接中,之后还包括:保存所有页码对应的包含有所述字符串的网络链接。优选的,当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。优选的,所述预设加密算法包括:利用UUID生成唯一识别码然后以此作为密码对页码进行加密。一种防止网络博客被网络爬虫检索的装置,包括:访问请求接收单元,用于接收访客发送的访问请求;字符串生成单元,用于基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;网络链接生成单元,用于根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;访问请求回复单元,用于允许访客访问博客主页。优选的,还包括:存储单元,用于保存所有页码对应的包含有所述字符串的网络链接。优选的,还包括:网络链接更新单元,用于当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。优选的,所述预设加密算法包括:利用UUID生成唯一识别码然后以此作为密码对页码进行加密。经由上述技术方案可知,本申请公开了一种防止博客被网络爬虫检索的方法和装置。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本专利技术一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;图2示出了本专利技术另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图;图3示出了本专利技术另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一个用户浏览了一个博主的首页。这时候,服务器向页面传递数据的时候应该传递了总的页数,和每页显示的文章数量,然后第一页是用阿拉伯数字1表示,第二页就是2。但是这个时候如果是网络爬虫软件,就可以很轻易的模拟URL请求去请求后台数据。如:http://blog.cnfol.com/9999999999?page=1这个域名,只要把page=1改成page=2就可以获取第二页里面的所有内容了。而一般用户访问的时候不是改这个page的值去访问,而是通过点击页面下的页码实现访问。参见图1示出了本专利技术一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。由图1可知,该方法包括:S101:接收访客发送的访问请求。访客要进入一个博主博客的主页,需要向服务器发送访问发起请求,通过URL访问,例如点击http://blog.cnfol.com/9999999999这个博主的URL。S102:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。服务器接收到访客发送的访问请求后,对博客的页面进行加密处理(如利用生成当前有效的UUID这个唯一识别码当做页码从而实现加密)生成相应的字符串。如生成与页码1相对应的特殊字符串550E8400,不同的页码对应不同的字符串。S103:根据所述字符串生成所述页码对应的网络链接,对所有页码对应的网络链接进行保存。将生成的字符串添加到该页面对应的网络链接中。这样的话,当访客点击页码1时实际发送的请求则为:http://blog.cnfol.com/9999999999?page=550E8400,以替换原有的网络链接:http://blog.cnfol.com/9999999999?page=1,因而网络爬虫无法根据页面1的网络链接对其他页面URL的拼接。S104:允许访问博客主页。由以上实施例可知,本申请公开了一种防止博客被网络爬虫检索的方法。该方法在接收到访客的访问请求后,对博客的页码进行加密以生成与该页码对应字符串,并根据生成的字符串生成该页码对应的网络链接中。由于该字符串是通过加密方式生成的,因而访客只能通过点击博客页码实现对博客页面的访问,而无法利用网络爬虫实现对页面网络链接的拼接,从而防止了网络爬虫对博客的大量检索。参见图2示出了本专利技术另一个实施例公开的一种防止博客被网络爬虫检索的方法的流程示意图。由图2可知,该方法包括:S201:接收访客发送的访问请求。S202:基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串。S203:将所述字符串添加到所述页码对应的网络链接中,对所有页码对应的网络链接进行保存。S204:当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。为了提高保密性,在本实施例中当所述字符串的存在时长超出了预设有效期后(如1小时),可以重新生成一个新的字符串,并根据新生成的字符串对页码对应的网络链接进行更新。S205:允许访问博客主页。参见图3示出了本专利技术另一个实施例公开的一种防止博客被网络爬虫检索的装置的结构示意图。由图3可知,该装置包括:访问请求接收单元1、字符串生成单元2、网络链接生成单元3、网络链本文档来自技高网...
一种防止博客被网络爬虫检索的方法和装置

【技术保护点】
一种防止网络博客被网络爬虫检索的方法,其特征在于,包括:接收访客发送的访问请求;基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;允许访客访问博客主页。

【技术特征摘要】
1.一种防止网络博客被网络爬虫检索的方法,其特征在于,包括:接收访客发送的访问请求;基于预设加密算法对博客的所有页码进行加密生成与所述页码对应的字符串;根据所述字符串生成所述页码对应的网络链接,所述网络链接中包含所述字符串;允许访客访问博客主页。2.根据权利要求1所述的方法,其特征在于,所述根据所述字符串生成所述页码对应的网络链接,之后还包括:保存所有页码对应的包含有所述字符串的网络链接。3.根据权利要求2所述的方法,其特征在于,当所述字符串的存在时长超出了预设有效期后,生成新字符串,并根据所述新字符串对所述页码对应的网络链接进行更新。4.根据权利要求1所述的方法,其特征在于,所述预设加密算法包括:利用UUID唯一识别码当做当前页码进行对页码加密。5.一种防止网络博客被网络爬虫检索的装置...

【专利技术属性】
技术研发人员:沈文策
申请(专利权)人:福建中金在线信息科技有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1