申请登录凭证的方法和装置制造方法及图纸

技术编号:15284047 阅读:43 留言:0更新日期:2017-05-06 12:24
本发明专利技术公开了一种申请登录凭证的方法和装置,涉及互联网技术领域,能够解决现有技术中爬虫程序申请登录凭证效率低的问题。本发明专利技术的方法主要包括:接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取所述登录凭证请求中携带的网址;从本地获取与所述网址对应的登录凭证;向所述爬虫程序发送所述登录凭证。本发明专利技术主要适用于爬虫程序爬取网页的场景中。

Method and apparatus for applying login credentials

The invention discloses a method and a device for applying login credentials, which relates to the technical field of the internet. The method of the invention mainly comprises: receiving the login credentials crawler sending the request, the request for the login credentials for the crawler to crawl the website login credentials; obtaining the login credentials carried in the request URL; obtain login credentials corresponding to the URL from the local sent to the crawler; the login credentials. The invention is mainly suitable for the crawler to crawl the web page.

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种申请登录凭证的方法和装置
技术介绍
网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序。在实际应用中,爬虫程序在爬取各种网站时,常常会遇到需要登录凭证才有权爬取网页内容的网站。在这种情况下,在爬虫程序爬取网站之前,会先向网站服务器发送登录账号;网站服务器接收到登录账号后,会通过验证规则对该登录账号进行验证;若验证通过,则向该爬虫程序反馈登录凭证,以便爬虫程序通过登录凭证爬取该网站上的网页内容。然而,网站服务器验证登录账号却需要花费较长的时间,并且当存在大量的爬虫程序使用相同的登录账号向网站服务器申请登录凭证时,网站服务器会暂时停用该登录账号,此时爬虫程序又需要更换登录账号,再次向网站服务器申请登录凭证,从而使得申请登录凭证的效率较低。
技术实现思路
鉴于上述技术问题,本专利技术提供了一种申请登录凭证的方法和装置,能够解决现有技术中爬虫程序申请登录凭证效率低的问题。一方面,本专利技术提供了一种申请登录凭证的方法,所述方法包括:接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取所述登录凭证请求中携带的网址;从本地获取与所述网址对应的登录凭证;向所述爬虫程序发送所述登录凭证。另一方面,本专利技术提供了一种申请登录凭证的装置,所述装置包括:接收单元,用于接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取单元,用于获取所述接收单元接收的所述登录凭证请求中携带的网址;所述获取单元,还用于从本地获取与所述网址对应的登录凭证;发送单元,用于向所述爬虫程序发送所述获取单元获取的所述登录凭证。借由上述技术方案,本专利技术提供的申请登录凭证的方法和装置,能够当爬虫程序待爬取的网站需要登录凭证才能爬取该网站上的网页时,爬虫程序直接向登录凭证管理器发送携带网址的登录凭证请求,登录凭证管理器接收该登录凭证请求后,可直接在本地查找与该网址对应的登录凭证,而无需让爬虫程序发送登录信息(例如登录账号),并对登录信息进行繁琐的验证操作,同时也不存在由于所使用的登录账号被暂时停用,而需要更换登录账号再次向网站服务器申请登录凭证的现象,从而提高了爬虫程序申请登录凭证的效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种申请登录凭证的方法的流程图;图2示出了本专利技术实施例提供的一种申请登录凭证的装置的组成框图;图3示出了本专利技术实施例提供的另一种申请登录凭证的装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种申请登录凭证的方法,如图1所示,该方法包括:101、接收爬虫程序发送的登录凭证请求。其中,登录凭证请求用于申请获得爬虫程序待爬取网站的登录凭证。在实际应用中,当某终端上的爬虫程序启动时,登录凭证管理器会同时启动。当爬虫程序待爬取的网站需要有登录凭证才能进行爬取操作时,爬虫程序会向登录凭证管理器发送登录凭证请求,以便获得登录凭证,通过登录凭证爬取待爬取网站上的网页。其中,登录凭证管理器用于管理各个网站的登录凭证,登录凭证管理器存储有各个网站的网址以及与网址相对应的登录凭证。102、获取登录凭证请求中携带的网址。当接收到爬虫程序发送的登录凭证请求后,登录凭证管理器需要对该登录凭证请求进行解析,从中获取爬虫程序待爬取网站的网址,以便登录凭证管理器根据获得的网址查找对应的登录凭证。103、从本地获取与网址对应的登录凭证。在上述步骤101中提及,登录凭证管理器中存储有各个网站的网址以及与网址相对应的登录凭证,因此,在获得登录凭证请求中携带的网址后,需要先在本地查找到该网址,然后根据本地存储的网址与登录凭证的对应关系,查找到与该网址对应的登录凭证。104、向爬虫程序发送登录凭证。当从本地获取爬虫程序待爬取网站的网址所对应的登录凭证后,登录凭证管理器可将获得的登录凭证反馈给爬虫程序,以便爬虫程序通过接收到的登录凭证爬取待爬取网站上的网页。在现有技术中,常常存在多个爬虫程序同时爬取同一个网站上的网页,因此,可能会发生多个爬虫程序同时使用同一个登录账号向网站服务器申请登录凭证,从而造成该等登录账号失效(或暂时失效)的现象。然而,在本专利技术实施例中,爬虫程序无需使用账号申请登录凭证,只需使用网址向登录凭证管理器申请登录凭证即可,从而不会出现由于频繁使用同一登录账号申请登录凭证,而造成登录账号失效(或暂时失效)的情况,进而提高了登录账号的利用率。本专利技术实施例提供的申请登录凭证的方法,能够当爬虫程序待爬取的网站需要登录凭证才能爬取该网站上的网页时,爬虫程序直接向登录凭证管理器发送携带网址的登录凭证请求,登录凭证管理器接收该登录凭证请求后,可直接在本地查找与该网址对应的登录凭证,而无需让爬虫程序发送登录信息(例如登录账号),并对登录信息进行繁琐的验证操作,同时也不存在由于所使用的登录账号被暂时停用,而需要更换登录账号再次向网站服务器申请登录凭证的现象,从而提高了爬虫程序申请登录凭证的效率。进一步的,在从本地获取与登录凭证请求中携带的网址相对应的登录凭证时,登录凭证管理器需要先检测本地是否存储有与该网址对应的登录凭证;当本地存储有与该网址对应的登录凭证时,可直接从本地获取登录凭证;而当本地没有与该网址对应的登录凭证时,可向爬虫程序发送用于指示无法获得登录凭证的反馈信息,以便爬虫程序直接向网站服务器申请登录凭证。进一步的,当登录凭证管理器检测到本地没有与登录凭证请求中携带的网址相对应的登录凭证时,还可以通过以下方法获得登录凭证:a1、登录凭证管理器获取与网址对应的网站的登录信息。其中,登录信息为网站服务器下发登录凭证前需要验证的信息,例如登录账号。登录凭证管理器中存储有各个网站的登录信息,当第一次有爬虫程序想要获得某网站的登录凭证时,登录凭证管理器中没有预先存储的登录凭证,因此需要通过本地存储的与该网站对应的登录信息向网站服务器申请登录凭证。a2、登录凭证管理器向网站的网站服务器发送携带登录信息的登录凭证请求。需要说明的是,登录凭证管理器向网站服务器发送的登录凭证请求中携带的内容与爬虫程序向登录凭证管理器发送的登录凭证请求中携带的内容不同。由于向网站服务器申请登录凭证需要验证登录信息,当登录信息验证通过后,才可获得登录凭证,所以本步骤中登录凭证管理器向网站服务器发送的登录凭证请求中携带的内容是登录信息。a3、登录凭证管理器接收并保存网站服务器发送的本文档来自技高网...
申请登录凭证的方法和装置

【技术保护点】
一种申请登录凭证的方法,其特征在于,所述方法包括:接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取所述登录凭证请求中携带的网址;从本地获取与所述网址对应的登录凭证;向所述爬虫程序发送所述登录凭证。

【技术特征摘要】
1.一种申请登录凭证的方法,其特征在于,所述方法包括:接收爬虫程序发送的登录凭证请求,所述登录凭证请求用于申请获得所述爬虫程序待爬取网站的登录凭证;获取所述登录凭证请求中携带的网址;从本地获取与所述网址对应的登录凭证;向所述爬虫程序发送所述登录凭证。2.根据权利要求1所述的方法,其特征在于,所述从本地获取与所述网址对应的登录凭证,包括:检测本地是否存储有与所述网址对应的登录凭证;若本地存储有与所述网址对应的登录凭证,则从本地获取所述登录凭证。3.根据权利要求2所述的方法,其特征在于,若本地没有与所述网址对应的登录凭证,则所述方法进一步包括:获取与所述网址对应的网站的登录信息;向所述网站的网站服务器发送携带所述登录信息的登录凭证请求;接收并保存所述网站服务器发送的登录凭证。4.根据权利要求3所述的方法,其特征在于,所述获取与所述网址对应的网站的登录信息,包括:获取与所述网址对应的网站的登录账号。5.根据权利要求3所述的方法,其特征在于,若本地没有存储与所述网址对应的网站的登录信息,则所述方法进一步包括:向所述爬虫程序发送第一反馈信息,所述第一反馈信息用于指示无法获得与所述网址对应的登录凭证。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法进一步包括:接收爬虫程序发送的第二反馈信息,所述第二反馈信息中携带有失效的登录凭证;检测本地是否存储有与所述失效的登录凭证相同的登录凭证;若本地...

【专利技术属性】
技术研发人员:崔志伸
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1