基于用户行为画像的爬虫拦截方法、电子设备、存储介质技术

技术编号：19390991 阅读：31 留言：0更新日期：2018-11-10 02:48

本发明专利技术公开了一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质，其方法包括：对已知爬虫访问请求进行分析，得到已知爬虫访问请求对应的用户行为画像；接收客户端发送的对页面的访问请求，并根据访问请求产生的用户行为数据，得到用户行为特征；将用户行为特征与爬虫访问请求的用户行为画像进行比对，判断访问请求是否为爬虫访问请求；若是，对访问请求进行拦截。利用对已知爬虫访问请求分析得到的用户行为画像，可以准确的刻画爬虫访问请求的特征点。根据客户端发送的访问请问的用户行为特征，与用户行为画像进行比对，可以提高比对的准确率，避免拦截错误。进一步，在拦截时设置用户手动验证，降低拦截错误率。

Crawler interception method, electronic equipment and storage medium based on user behavior portrait

The invention discloses a crawler interception method, an electronic device and a storage medium based on the user behavior portrait. The method includes: analyzing the known crawler access request, obtaining the corresponding user behavior portrait of the known crawler access request, receiving the page access request sent by the client, and producing according to the access request. User behavior data are generated to obtain user behavior characteristics; the user behavior characteristics are compared with the user behavior portrait of the crawler access request to determine whether the access request is a crawler access request; if so, the access request is intercepted. User behavior portraits obtained from the analysis of known crawler access requests can accurately characterize the characteristics of crawler access requests. Comparing with user behavior portraits according to the user behavior characteristics of access queries sent by clients can improve the accuracy of comparison and avoid interception errors. Further, user verification is set up during interception to reduce interception error rate.

全部详细技术资料下载

【技术实现步骤摘要】
基于用户行为画像的爬虫拦截方法、电子设备、存储介质
本专利技术涉及网络安全领域，具体涉及一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质。
技术介绍
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫通过访问页面，从页面中抓取相关的信息，存储在搜索引擎的服务器中，提供给用户搜索结果。正常的搜索引擎使用网络爬虫时，一般通过使用http请求的UA(User-Agent，用户代理)字段来向服务器表明他们的身份。通过检查服务器的日志，使用用户代理字段可以辨认哪一个爬虫曾经访问过服务器，以及网络爬虫的访问的频率。但有些怀有恶意的网络爬虫通常不会留任何的用户代理字段内容，或者他们也会将他们的身份伪装成正常的搜索引擎。这些怀有恶意的网络爬虫会从页面中盗窃信息，给服务器造成安全威胁，并使得服务器负载过大。现有技术中，为了确保正常用户的访问，有些服务器采取过滤用户IP、过滤HTTP请求的特定UA(User-Agent，用户代理)等方法来拦截来自网络爬虫的访问。但这种方法没有考虑到正常用户共用IP、UA可以任意设置等问题，导致拦截网络爬虫的效率不高。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于用户行为画像的爬虫拦截方法、电子设备、存储介质。根据本专利技术的一个方面，提供了一种基于用户行为画像的爬虫拦截方法，其包括：对已知爬虫访问请求进行分析，得到已知爬虫访问请求对应的用户行为画像；接收客户端发送的对页面的访问请求，并根据访问请求产生的用户行为数据，得到用户行为特征；将用户行为特征与爬虫访问请求的用户行为画像进行比对，判断...

【技术保护点】
1.一种基于用户行为画像的爬虫拦截方法，其包括：对已知爬虫访问请求进行分析，得到已知爬虫访问请求对应的用户行为画像；接收客户端发送的对页面的访问请求，并根据所述访问请求产生的用户行为数据，得到用户行为特征；将所述用户行为特征与爬虫访问请求的用户行为画像进行比对，判断所述访问请求是否为爬虫访问请求；若是，对所述访问请求进行拦截。

【技术特征摘要】
1.一种基于用户行为画像的爬虫拦截方法，其包括：对已知爬虫访问请求进行分析，得到已知爬虫访问请求对应的用户行为画像；接收客户端发送的对页面的访问请求，并根据所述访问请求产生的用户行为数据，得到用户行为特征；将所述用户行为特征与爬虫访问请求的用户行为画像进行比对，判断所述访问请求是否为爬虫访问请求；若是，对所述访问请求进行拦截。2.根据权利要求1所述的方法，其中，所述用户行为画像包括用户访问服务器的频率、页面停留时长、页面访问速度、页面渲染度、用户行为日志类型和/或用户地理位置信息。3.根据权利要求2所述的方法，其中，所述对已知爬虫访问请求进行分析，得到已知爬虫访问请求对应的用户行为画像进一步包括：获取已知爬虫访问请求所产生的用户行为数据；根据所述用户行为数据，得到用户访问服务器的频率、用户在单页面停留的平均时长、用户访问单页面的平均速度和/或用于表征页面是否被渲染的信息；获取服务器记录的所述已知爬虫访问请求产生的用户行为日志类型；获取已知爬虫访问请求的IP地址，并根据所述IP地址得到用户地理位置范围信息；根据所述用户访问服务器的频率、用户在单页面停留的平均时长、用户访问单页面的平均速度、用于表征页面是否被渲染的信息、用户行为日志类型和/或用户地理位置范围信息，生成用户行为画像。4.根据权利要求3所述的方法，其中，所述将所述用户行为特征与爬虫访问请求的用户行为画像进行比对，判断所述访问请求是否为爬虫访问请求包括：判断所述用户行为特征中访问服务器的频率是否大于或等于用户行为画像中用户访问服务器的频率；若是，判定所述访问请求为爬虫访问请求；和/或，判断所述用户行为特征中用户在单页面停留时长是否小于或等于用户行为画像中页面停留时长；若是，判定所述访问请求为爬虫访问请求；和/或，判断所述用户行为特征中用户访问页面的速度是否大于或等于用户行为画像中页面访问速度；若是，判定所述访问请求为爬虫访问请求；和/或，判断所述用户行为特征中页面渲染度低于或等于用户行为画像中页面渲染度；若是，判定所述访问请求为爬虫访问请求；和/或，判断所述用户行为特征所产生的用户行为日志类型是否与用户行为画像中用户行为日志类型一致；若是，判定所述访问请求为爬虫访问请求；和/或，判断所述用户行为画像中用户地理位置信息是否涵盖用户行为特征中用户地理位置信息；若是，判定所述访问请求为爬虫访问请求。5.根据权利要求1-4中任一项所述的方法，其中，在所述接收客户端发送的对页面的...

【专利技术属性】
技术研发人员：杨磊，朱金辉，冯威，
申请(专利权)人：掌阅科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人