代理云环境中的用户抓取外部网页的方法和装置制造方法及图纸

技术编号:9830376 阅读:117 留言:0更新日期:2014-04-01 19:23
本发明专利技术提出一种代理云环境中的用户抓取外部网页的方法和装置,其中所述方法包括以下步骤:接收用户抓取网页的请求;验证用户的身份;统计用户的配额以确定用户是否在黑名单中;解析请求以确定是否要求使用http或https协议抓取网页;以及如果用户通过身份验证且不在黑名单中,则按照要求而代理用户使用http或https协议抓取网页。根据本发明专利技术实施例的方法,在代理云环境中通过用户身份验证和配额黑名单验证以使得符合身份验证和配额黑名单验证的用户使用http或https协议抓取网页,不仅满足用户获取外部资源的需求,同时可对用户的使用资源进行统计,方便管理,并对使用量较大的用户进行限制,提高使用效率。

【技术实现步骤摘要】
代理云环境中的用户抓取外部网页的方法和装置
本专利技术涉及互联网
,尤其涉及一种代理云环境中的用户抓取外部网页的方法和装置。
技术介绍
目前,在代理云环境中访问一个外部网页或者向一个外部地址提交请求的需求很常见,用户可以通过FetchURL服务(云环境提供的网页抓取服务)提供的sdk(SoftwareDevelopmentKit,软件开发工具包)访问外部网页,但是,这种访问方式存在以下问题:(1)sdk的限制条件较多,不支持用户的自定义需求;(2)无法对用户的使用资源进行审计;(3)不支持https访问。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种代理云环境中的用户抓取外部网页的方法,该方法不仅满足用户获取外部资源的需求,同时可对用户的使用资源进行统计,方便管理,并对使用量较大的用户进行限制,提高使用效率。本专利技术的另一目的在于提出一种代理云环境中的用户抓取外部网页的装置。为了实现上述目的,根据本专利技术第一方面的实施例的代理云环境中的用户抓取外部网页的方法包括以下步骤:接收所述用户抓取网页的请求;验证所述用户的身份;统计所述用户的配额以确定所述用户是否在黑名单中;解析所述请求以确定是否要求使用http或https协议抓取网页;以及如果所述用户通过身份验证且不在所述黑名单中,则按照所述要求而代理用户使用http或https协议抓取网页。根据本专利技术实施例的代理云环境中的用户抓取外部网页的方法,在代理云环境中通过用户身份验证和配额黑名单验证以使得符合身份验证和配额黑名单验证的用户使用http或https协议抓取网页,不仅满足用户获取外部资源的需求,同时可对用户的使用资源进行统计,方便管理,并对使用量较大的用户进行限制,提高使用效率。为了实现上述目的,根据本专利技术第二方面的实施例的代理云环境中的用户抓取外部网页的装置包括:接收模块,所述接收模块用于接收所述用户抓取网页的请求;验证模块,所述验证模块用于验证所述用户的身份;统计模块,所述统计模块用于统计所述用户的配额以确定所述用户是否在黑名单中;解析模块,所述解析模块用于解析所述请求以确定是否要求使用http或https协议抓取网页;以及抓取模块,所述抓取模块用于在所述用户通过身份验证且不在所述黑名单中时,按照所述要求而代理用户使用http或https协议抓取网页。根据本专利技术实施例的代理云环境中的用户抓取外部网页的装置,在代理云环境中通过用户身份验证和配额黑名单验证以使得符合身份验证和配额黑名单验证的用户使用http或https协议抓取网页,不仅满足用户获取外部资源的需求,同时可对用户的使用资源进行统计,方便管理,并对使用量较大的用户进行限制,提高使用效率。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的方法的流程图;图2是根据本专利技术实施例的实现代理云环境中抓取外部网页的系统示意图;图3是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的方法的流程图;图4是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的方法的流程图;图5是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的方法的流程图;以及图6是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的装置的结构框图;图7是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的装置的结构框图;图8是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的装置的结构框图;图9是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的装置的结构框图;以及图10是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的装置的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。下面参考附图描述根据本专利技术实施例的代理云环境中的用户抓取外部网页的方法和装置。一种代理云环境中的用户抓取外部网页的方法,包括以下步骤:接收用户抓取网页的请求;验证用户的身份;统计用户的配额以确定用户是否在黑名单中;解析请求以确定是否要求使用http或https协议抓取网页;以及如果用户通过身份验证且不在黑名单中,则按照要求而代理用户使用http或https协议抓取网页。图1是根据本专利技术一个实施例的代理云环境中的用户抓取外部网页的方法的流程图,图2是根据本专利技术实施例的实现代理云环境中抓取外部网页的系统示意图,下面结合图1和图2说明本专利技术实施例的代理云环境中的用户抓取外部网页的方法。如图1所示,代理云环境中的用户抓取外部网页的方法包括下述步骤。步骤S101,接收用户抓取网页的请求。在本专利技术的一个实施例中,使用http协议接收用户抓取网页的请求,其中http头中包括分别携带用户的公钥、密钥和用户要求使用http或https协议抓取网页的三个字段,通过三个字段可以获得用户抓取网页的请求。具体地,如图2所示,用户通过代理云环境10向fetchurl服务器20发送抓取网页的请求,代理云环境10和fetchurl服务器20之间通过http协议通信,代理云环境10可以通过修改curl(利用URL语法在命令行方式下工作的文件传输工具)动态链接库将用户抓取网页的请求发送到fetchurl服务器20,其中,代理云环境10通过环境变量注入得到用户的公钥、密钥,并通过解析用户抓取网页的请求获得用户要求使用http或https协议即用户请求方式,以及代理云环境10在转发抓取网页的请求时将这三个信息加入http请求的头部文件中以使得fetchurl服务器20获得用户抓取网页的请求。步骤S102,验证用户的身份。具体地,fetchurl服务器20接收到用户抓取网页的请求之后,通过访问权限系统40以获取该用户的uid(UserIdenti本文档来自技高网
...
代理云环境中的用户抓取外部网页的方法和装置

【技术保护点】
一种代理云环境中的用户抓取外部网页的方法,其特征在于,包括以下步骤:接收所述用户抓取网页的请求;验证所述用户的身份;统计所述用户的配额以确定所述用户是否在黑名单中;解析所述请求以确定是否要求使用http或https协议抓取网页;以及如果所述用户通过身份验证且不在所述黑名单中,则按照所述要求而代理用户使用http或https协议抓取网页。

【技术特征摘要】
1.一种代理云环境中的用户抓取外部网页的方法,其特征在于,包括以下步骤:使用http协议接收所述用户抓取网页的请求,其中,http头中包括携带用户要求使用http或https协议抓取网页的字段;验证所述用户的身份;统计所述用户的配额以确定所述用户是否在黑名单中;解析所述请求以确定是否要求使用http或https协议抓取网页;判断所述请求是否是大数据包请求,如果是,则过滤所述大数据包请求;以及如果所述请求不是大数据包请求且所述用户通过身份验证且不在所述黑名单中,则按照所述要求而代理用户使用http或https协议抓取网页,其中,如果用户提交的是https请求,则需要以https方式与所请求的目标端交互。2.根据权利要求1所述的方法,其特征在于,进一步包括步骤:判断所述网页所在的地址是否属于禁止访问地址;以及如果是,则向用户反馈所述地址不可访问的提示。3.根据权利要求2所述的方法,其特征在于,所述网页所在的地址包括所述网页的域名或ip地址。4.根据权利要求1所述的方法,其特征在于,所述大数据包请求是超过10M的请求。5.根据权利要求1所述的方法,其特征在于,进一步包括步骤:如果所述用户没有通过身份验证或者在所述黑名单中,则向所述用户返回身份错误或配额超限提示。6.根据权利要求1所述的方法,其特征在于,进一步包括步骤:在代理用户使用http或https协议抓取网页之后,记录抓取网页而发生的配额消耗用于统计所述用户的配额。7.根据权利要求1至6中任一项所述的方法,其特征在于,http头中还包括分别携带所述用户的公钥、密钥的字段。8.一种代理云环境中的用户抓取外部网页的装置,其特征在于,包括:接收模块,所述接收模块用于使用http协议接收所述用户抓取网页的请求,其中,http头中包括携带用户要求使用http...

【专利技术属性】
技术研发人员:高巍何磊李彬孟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1