数据反抓取方法和装置制造方法及图纸

技术编号:16456062 阅读:22 留言:0更新日期:2017-10-25 20:36
本发明专利技术提出一种数据反抓取方法和装置,该数据反抓取方法包括:接收访问方发送的用户请求,所述用户请求中包含用户信息;判断所述用户信息是否在预先生成的黑名单中;如果所述用户信息在所述黑名单中,获取与所述用户信息对应的数据投放策略,并根据所述数据投放策略生成虚假数据,以及,将所述虚假数据反馈给所述访问方。该方法能够提高数据反抓取的效果。

Data anti grasping method and device

The invention provides a data capture method and device, including the data capture method access: receiving a request sent by the user, the user request contains the user information; judging whether the user information is in the pre generated list; if the user information on the blacklist, and access corresponding to the user information data placement strategy, and according to the data on the strategy to generate false data, and the false data feedback to the access. This method can improve the effect of data anti grasping.

【技术实现步骤摘要】
数据反抓取方法和装置
本专利技术涉及互联网
,尤其涉及一种数据反抓取方法和装置。
技术介绍
随着互联网的蓬勃发展,竞争日益白热化,其中通过对竞品进行数据抓取,可以进行竞品分析,为竞争提供了基础支持和后续相关支持。相应的,为了保护自身数据,企业也需要进行数据反抓取。相关技术中,数据反抓取的常规解决方式是对异常IP进行IP封禁或者采用验证码进行验证,但是这种方式简单直接,效果并不理想。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种数据反抓取方法,该方法可以提高数据反抓取的效果。本专利技术的另一个目的在于提出一种数据反抓取装置。为达到上述目的,本专利技术第一方面实施例提出的数据反抓取方法,包括:本专利技术第一方面实施例提出的数据反抓取方法,通过在用户信息在黑名单时,生成虚假数据并反馈给访问方,可以避免被抓取用户很快觉察,并且可以对抓取用户造成误导,相对于直接封禁的方式,可以提高数据反抓取的效果。为达到上述目的,本专利技术第二方面实施例提出的数据反抓取装置,包括:本专利技术第二方面实施例提出的数据反抓取装置,通过在用户信息在黑名单时,生成虚假数据并反馈给访问方,可以避免被抓取用户很快觉察,并且可以对抓取用户造成误导,相对于直接封禁的方式,可以提高数据反抓取的效果。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一个实施例提出的数据反抓取方法的流程示意图;图2是本专利技术另一个实施例提出的数据反抓取方法的流程示意图;图3是本专利技术一个实施例提出的数据反抓取装置的结构示意图;图4是本专利技术另一个实施例提出的数据反抓取装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一个实施例提出的数据反抓取方法的流程示意图。参见图1,本实施例的方法包括:S11:接收访问方发送的用户请求,所述用户请求中包含用户信息。其中,用户信息包括IP地址,如果访问方是正常访问页面时,用户信息中还包括其他标识,其他标识包括:用户未登录时的用户标识和用户已登录时的用户标识,用户未登录时的用户标识包括:cuid或appid,用户已登录时用户标识是pass_id。如果访问方是非正常访问页面,例如直接调用页面接口,则用户信息中不包括上述的cuid、appid和pass_id。S12:判断所述用户信息是否在预先生成的黑名单中。其中,可以预先生成黑名单,黑名单中记录预先识别出的抓取用户的用户信息,如抓取用户的IP地址、cuid、appid或pass_id等,从而在当前接收的用户请求中包括的用户信息在黑名单中时,则可以确定出当前的访问方是抓取用户。具体的黑名单的生成流程可以参见后续相关描述。S13:如果所述用户信息在所述黑名单中,获取与所述用户信息对应的数据投放策略,并根据所述数据投放策略生成虚假数据,以及,将所述虚假数据反馈给所述访问方。其中,当用户信息在黑名单中时,可以确定访问方是抓取用户。对于抓取用户,由于直接封禁会让抓取用户很快觉察并改变抓取策略。因此,在本实施例中,对于抓取用户采用的是反馈虚假数据的方式,这样可以避免被抓取用户很快觉察,另外,还可以误导虚假抓取用户。对应每种用户信息,可以预先生成相应的数据投放策略。例如,对应cuid1,虚假数据是在真实数据的基础上增加10%,对应cuid2,虚假数据是在真实数据的基础上减少10%等。进一步的,为了更好的误导抓取用户,可以生成符合待抓取数据的发展趋势的虚假数据。例如,抓取用户需要抓取的数据是销量,由于销量的发展趋势是增加的,比如,在同一个销量计算周期内,后一时刻的销量值大于前一时刻的销量值,因此,对应后一时刻生成的虚假数据也应该大于前一时刻生成的虚假数据,以避免被抓取用户觉察。本实施例中,通过在用户信息在黑名单时,生成虚假数据并反馈给访问方,可以避免被抓取用户很快觉察,并且可以对抓取用户造成误导,相对于直接封禁的方式,可以提高数据反抓取的效果。图2是本专利技术另一个实施例提出的数据反抓取方法的流程示意图。参见图2,本实施例的方法包括:S201:生成黑名单。其中,可以通过在线分析和/或离线分析识别异常的用户信息并记录在黑名单中,以生成黑名单。具体的,通过在线分析识别异常的用户信息并记录在黑名单中,包括:实时获取访问的用户请求的数据流(如采用sparkstreaming方式),对所述数据流进行如下项中的至少一项,识别异常的用户信息并记录在黑名单中:(1)获取访问预设页面的用户请求中同一种用户信息的出现次数,将出现次数大于预设值的用户信息,记录在黑名单中;其中,预设页面例如包括:商户页和商户列表页,商户页是显示一个或多个商户信息的页面,商户列表页是显示某个商户内的一个或多个商品信息的页面。预设页面可以通过统一资源定位符(UniformResourceLocator,URL)前缀标识,不同的URL前缀用于标识不同的页面。因此,如果预设的URL前缀下,某个用户信息的出现次数大于预设值时,则将该用户信息记录在黑名单中。用户信息例如包括:cuid、appid、pass_id或IP地址。(2)获取翻页请求中包含的数量值,将数量值不为预设值的翻页请求中包含的用户信息,记录在黑名单中。受限于终端显示屏的尺寸,以商户页为例,通过多个商户信息不能在同一个页面中显示,用户为了获取更多的商户信息,可以通过翻页实现,例如,在移动终端上用户通过滑动屏幕实现翻页。对于正常访问的用户,每次翻页请求中会包含数量值,该数量值表明新增加显示的商户信息的数量,对于正常访问的用户该包含的数量值都是默认值,例如,在PC端,该数量值是40,在移动端(APP或webapp),该数量值是20。而当翻页请求中包含的数量值不是上述默认值时,则可以确定相应的访问方不是正常用户访问,可以将其判定为抓取用户,将其用户信息记录在黑名单中。(3)获取用户请求中的IP地址,如果所述IP地址属于国外IP地址,则将所述用户请求中包含的用户信息,记录在黑名单中。通常来讲,正常用户的IP地址都属于国内IP地址,如果出现国外IP地址可以认为存在异常,将相应的用户信息记录在黑名单中。通过在线分析能够快速有效的识别抓取信息,并且可以实时去增补上述的识别策略。具体的,通过离线分析识别异常的用户信息并记录在黑名单中,包括:获取预设时间段内的用户请求作为数据样本,对所述数据样本进行如下项中的至少一项,识别异常的用户信息并记录在黑名单中:(1)获取访问预设页面的用户请求中同一种用户信息的出现次数,将出现次数大于预设值的用户信息,记录在黑名单中。类似上述的在线分析时的第一种识别策略,该策略可以称为频繁集策略,如果某个用户信息频繁出现在预设页面上,则可以识别出其存在异常,将本文档来自技高网...
数据反抓取方法和装置

【技术保护点】
一种数据反抓取方法,其特征在于,包括:接收访问方发送的用户请求,所述用户请求中包含用户信息;判断所述用户信息是否在预先生成的黑名单中;如果所述用户信息在所述黑名单中,获取与所述用户信息对应的数据投放策略,并根据所述数据投放策略生成虚假数据,以及,将所述虚假数据反馈给所述访问方。

【技术特征摘要】
1.一种数据反抓取方法,其特征在于,包括:接收访问方发送的用户请求,所述用户请求中包含用户信息;判断所述用户信息是否在预先生成的黑名单中;如果所述用户信息在所述黑名单中,获取与所述用户信息对应的数据投放策略,并根据所述数据投放策略生成虚假数据,以及,将所述虚假数据反馈给所述访问方。2.根据权利要求1所述的方法,其特征在于,在判断所述用户信息是否在预先生成的黑名单中之前,所述方法还包括:判断所述用户信息中是否包括正常访问页面时的用户信息;如果不包括,则根据预先设置的与当前情况对应的数据投放策略,生成当前情况对应的虚假数据,以及,将所述当前情况对应的虚假数据反馈给所述访问方。3.根据权利要求1所述的方法,其特征在于,所述用户信息包括IP地址,在判断所述用户信息是否在预先生成的黑名单中之前,所述方法还包括:判断所述IP地址是否属于预先确定的封禁IP地址;如果属于,则直接拒绝所述用户请求。4.根据权利要求1-3任一项所述的方法,其特征在于,还包括:通过在线分析和/或离线分析识别异常的用户信息并记录在黑名单中,以生成黑名单。5.根据权利要求4所述的方法,其特征在于,通过在线分析识别异常的用户信息并记录在黑名单中,包括:实时获取访问的用户请求的数据流,对所述数据流进行如下项中的至少一项,识别异常的用户信息并记录在黑名单中:获取访问预设页面的用户请求中同一种用户信息的出现次数,将出现次数大于预设值的用户信息,记录在黑名单中;获取翻页请求中包含的数量值,将数量值不为默认值的翻页请求中包含的用户信息,记录在黑名单中;获取用户请求中的IP地址,如果所述IP地址属于国外IP地址,则将所述用户请求中包含的用户信息,记录在黑名单中。6.根据权利要求4所述的方法,其特征在于,通过离线分析识别异常的用户信息并记录在黑名单中,包括:获取预设时间段内的用户请求作为数据样本,对所述数据样本进行如下项中的至少一项,生成黑名单:获取访问预设页面的用户请求中同一种用户信息的出现次数,将出现次数大于预设值的用户信息,记录在黑名单中;将访问时间均匀集中在预设时间段内的用户请求中包含的用户信息,记录在黑名单中;获取IP地址的访问情况,如果访问的对象是均匀的,则记录在黑名单中;根据其他产品线提供的信息识别异常的用户信息并记录在黑名单中;将后续无用户行为的用户请求中的用户信息记录在黑名单中。7.一种数据反抓取...

【专利技术属性】
技术研发人员:刘小春黄曙光梁福坤杜洪先
申请(专利权)人:北京小度信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1