基于用户行为画像的爬虫拦截方法、电子设备、存储介质技术

技术编号:19390991 阅读:31 留言:0更新日期:2018-11-10 02:48
本发明专利技术公开了一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质,其方法包括:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。利用对已知爬虫访问请求分析得到的用户行为画像,可以准确的刻画爬虫访问请求的特征点。根据客户端发送的访问请问的用户行为特征,与用户行为画像进行比对,可以提高比对的准确率,避免拦截错误。进一步,在拦截时设置用户手动验证,降低拦截错误率。

Crawler interception method, electronic equipment and storage medium based on user behavior portrait

The invention discloses a crawler interception method, an electronic device and a storage medium based on the user behavior portrait. The method includes: analyzing the known crawler access request, obtaining the corresponding user behavior portrait of the known crawler access request, receiving the page access request sent by the client, and producing according to the access request. User behavior data are generated to obtain user behavior characteristics; the user behavior characteristics are compared with the user behavior portrait of the crawler access request to determine whether the access request is a crawler access request; if so, the access request is intercepted. User behavior portraits obtained from the analysis of known crawler access requests can accurately characterize the characteristics of crawler access requests. Comparing with user behavior portraits according to the user behavior characteristics of access queries sent by clients can improve the accuracy of comparison and avoid interception errors. Further, user verification is set up during interception to reduce interception error rate.

【技术实现步骤摘要】
基于用户行为画像的爬虫拦截方法、电子设备、存储介质
本专利技术涉及网络安全领域,具体涉及一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质。
技术介绍
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫通过访问页面,从页面中抓取相关的信息,存储在搜索引擎的服务器中,提供给用户搜索结果。正常的搜索引擎使用网络爬虫时,一般通过使用http请求的UA(User-Agent,用户代理)字段来向服务器表明他们的身份。通过检查服务器的日志,使用用户代理字段可以辨认哪一个爬虫曾经访问过服务器,以及网络爬虫的访问的频率。但有些怀有恶意的网络爬虫通常不会留任何的用户代理字段内容,或者他们也会将他们的身份伪装成正常的搜索引擎。这些怀有恶意的网络爬虫会从页面中盗窃信息,给服务器造成安全威胁,并使得服务器负载过大。现有技术中,为了确保正常用户的访问,有些服务器采取过滤用户IP、过滤HTTP请求的特定UA(User-Agent,用户代理)等方法来拦截来自网络爬虫的访问。但这种方法没有考虑到正常用户共用IP、UA可以任意设置等问题,导致拦截网络爬虫的效率不高。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于用户行为画像的爬虫拦截方法、电子设备、存储介质。根据本专利技术的一个方面,提供了一种基于用户行为画像的爬虫拦截方法,其包括:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。根据本专利技术的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。根据本专利技术提供的基于用户行为画像的爬虫拦截方法、电子设备、存储介质,对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。利用对已知爬虫访问请求分析得到的用户行为画像,可以准确的刻画爬虫访问请求的特征点。根据客户端发送的访问请问的用户行为特征,与用户行为画像进行比对,可以提高比对的准确率,避免拦截错误。进一步,在拦截时设置用户手动验证,降低拦截错误率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术实施例一的基于用户行为画像的爬虫拦截方法的流程图;图2示出了根据本专利技术实施例二的基于用户行为画像的爬虫拦截方法的流程图;图3示出了根据本专利技术实施例四的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了根据本专利技术实施例一的基于用户行为画像的爬虫拦截方法的流程图,如图1所示,基于用户行为画像的爬虫拦截方法具体包括如下步骤:步骤S101,对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像。基于对确定的已知的爬虫访问请求,可以根据其在访问过程中所留下的访问痕迹、对页面所的操作、对服务器的访问等用户行为数据进行分析,通过如将大量用户行为数据进行训练、归纳总结等方式可以得到用户行为画像。其中,用户行为画像包括用户访问服务器的频率、页面停留时长、页面访问速度、页面渲染度、用户行为日志类型、用户地理位置信息等多个维度的数据。在得到用户行为画像时,具体可以通过如下方式:获取已知爬虫访问请求所产生的用户行为数据,由于爬虫访问请求的目的是抓取数据,其极少去主动触发页面所包含的如基于ajax实现的JavaScript代码,不会对页面进行渲染,极快地访问页面,在抓取到所需的数据后,会立刻访问下一页面,在单个页面中停留的时间较短等,而正常用户对页面访问后,会查看页面内容,对页面进行操作、页面会正常的进行渲染展示,两者所产生的用户行为数据会在不同维度产生极大的区别。根据爬虫访问的特性,通过将爬虫访问请求所产生的用户行为数据与正常用户访问请求所产生的用户行为数据进行比对,或将爬虫访问请求所产生的用户行为数据进行训练、分析,得到爬虫访问时,用户访问服务器的频率、用户在单页面停留的平均时长、用户访问单页面的平均速度、用于表征页面是否被渲染的信息等数据。利用这些不同维度的数据可以将爬虫访问与正常用户访问进行区分。具体的,用户访问服务器的频率通过计算预设时间内访问服务器的次数可以得到;用户在单页面停留的平均时长根据统计对同一页面访问时间、离开页面时间可以得到;用户访问单页面的平均速度通过计算预设时间内访问的页面个数可以得到;用于表征页面是否被渲染的信息根据浏览器对页面的渲染度、页面中JavaScript/css等相关的代码是否被浏览器渲染引擎调用等得到,由于爬虫访问页面的时间短,页面被渲染的程度极低,甚至没有被渲染。进一步,当页面被访问时,会产生相关的访问日志;当用户操作页面中如基于ajax技术由JavaScript所编写的组件、控件等,JavaScript执行相关操作时会被采集到操作执行,产生相关的操作日志;这些日志都会上传至服务器。从服务器可以获取到各个用户对页面访问时所产生的日志。正常用户会访问页面、操作页面中的组件、控件等,会产生访问日志和操作日志;爬虫访问页面时,仅产生访问日志,而不会操作页面的组件、控件等,不会产生操作日志;获取服务器记录的已知爬虫访问请求产生的日志,仅会获取到访问日志,即用户行为日志类型仅为访问日志。进一步,考虑具有爬虫技术本文档来自技高网...

【技术保护点】
1.一种基于用户行为画像的爬虫拦截方法,其包括:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据所述访问请求产生的用户行为数据,得到用户行为特征;将所述用户行为特征与爬虫访问请求的用户行为画像进行比对,判断所述访问请求是否为爬虫访问请求;若是,对所述访问请求进行拦截。

【技术特征摘要】
1.一种基于用户行为画像的爬虫拦截方法,其包括:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据所述访问请求产生的用户行为数据,得到用户行为特征;将所述用户行为特征与爬虫访问请求的用户行为画像进行比对,判断所述访问请求是否为爬虫访问请求;若是,对所述访问请求进行拦截。2.根据权利要求1所述的方法,其中,所述用户行为画像包括用户访问服务器的频率、页面停留时长、页面访问速度、页面渲染度、用户行为日志类型和/或用户地理位置信息。3.根据权利要求2所述的方法,其中,所述对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像进一步包括:获取已知爬虫访问请求所产生的用户行为数据;根据所述用户行为数据,得到用户访问服务器的频率、用户在单页面停留的平均时长、用户访问单页面的平均速度和/或用于表征页面是否被渲染的信息;获取服务器记录的所述已知爬虫访问请求产生的用户行为日志类型;获取已知爬虫访问请求的IP地址,并根据所述IP地址得到用户地理位置范围信息;根据所述用户访问服务器的频率、用户在单页面停留的平均时长、用户访问单页面的平均速度、用于表征页面是否被渲染的信息、用户行为日志类型和/或用户地理位置范围信息,生成用户行为画像。4.根据权利要求3所述的方法,其中,所述将所述用户行为特征与爬虫访问请求的用户行为画像进行比对,判断所述访问请求是否为爬虫访问请求包括:判断所述用户行为特征中访问服务器的频率是否大于或等于用户行为画像中用户访问服务器的频率;若是,判定所述访问请求为爬虫访问请求;和/或,判断所述用户行为特征中用户在单页面停留时长是否小于或等于用户行为画像中页面停留时长;若是,判定所述访问请求为爬虫访问请求;和/或,判断所述用户行为特征中用户访问页面的速度是否大于或等于用户行为画像中页面访问速度;若是,判定所述访问请求为爬虫访问请求;和/或,判断所述用户行为特征中页面渲染度低于或等于用户行为画像中页面渲染度;若是,判定所述访问请求为爬虫访问请求;和/或,判断所述用户行为特征所产生的用户行为日志类型是否与用户行为画像中用户行为日志类型一致;若是,判定所述访问请求为爬虫访问请求;和/或,判断所述用户行为画像中用户地理位置信息是否涵盖用户行为特征中用户地理位置信息;若是,判定所述访问请求为爬虫访问请求。5.根据权利要求1-4中任一项所述的方法,其中,在所述接收客户端发送的对页面的...

【专利技术属性】
技术研发人员:杨磊朱金辉冯威
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1