网站数据采集方法及装置制造方法及图纸

技术编号:9740077 阅读:114 留言:0更新日期:2014-03-06 23:28
本发明专利技术提供了一种网站数据采集方法及装置。该方法包括:预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码,将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本发明专利技术在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可实现对网站进行数据采集。

【技术实现步骤摘要】
网站数据采集方法及装置
本专利技术涉及通信领域,尤其涉及一种网站数据采集方法及装置。
技术介绍
目前,多采用网络爬虫程序对网站的数据进行采集。其中,网络爬虫程序是一个沿着链接漫游网页(Web)文档集合的程序。该网络爬虫程序通过给定的统一资源标识符(Uniform Resource Locator,简称 URL)链接,利用超文本传输协议(Hypertext TransferProtocol,简称HTTP)等标准协议,读取相应Web文档,然后以Web文档中包括的所有未访问过的URL链接作为新的起点,继续进行漫游,直到没有满足未访问的新URL链接为止。在网络爬虫程序完成所有漫游后,下载所有URL链接指向的页面保存并进行元素解析,得到网站的数据采集结果。现今互联网中存在一些在访问时需注册登录账号,在注册成功后通过登录账号登陆的网站,例如,社会性网络服务(Social Networking Services,简称SNS)网站、微博网站、天涯论坛和腾讯空间等网站。在对这类网站如果采用网络爬虫程序进行数据采集,由于需要进行登录后才能进行网站,该网站不断地将网络爬虫程序的访问页面跳转至该网站的登录页面,这样网络爬虫程序就不能获取到该网站的数据采集结果。
技术实现思路
本专利技术提供了一种网站数据采集方法及装置,用于解决基于网络爬虫程序无法对互联网中在登录后才能访问一些网站进行数据采集的问题。为了实现上述目标,本专利技术提供的一种网站数据采集方法,包括:预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;将所述身份信息写入所述网站登录页面的登录表单中;对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性;接收所述服务器发送的用于访问所述网站的标识码;所述标识码是由所述服务器验证出所述身份信息合法后发送的;在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。为了实现上述目标,本专利技术提供的一种网站数据采集装置,包括:预设模块,用于预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;写入模块,用于将所述身份信息写入所述网站登录页面的登录表单中;加密模块,用于对所述登录表单进行加密并发送给网站对应的服务器,以使所述服务器验证所述身份信息的合法性;接收模块,用于接收所述服务器发送的用于标识所述用户的标识码,其中所述标识码是由所述服务器验证出所述身份验证合法后发送的;采集模块,用于在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。本专利技术提供的一种网站数据采集方法及装置,预先在网络爬虫程序中设置用于登录待采集网站的身份信息,该身份信息包括登录账号和登录密码;将身份信息写入该网站登录页面的登录表单中,对该登录表单进行加密发送给该网站对应的服务器,以使服务器验证该身份信息的合法性,接收服务器发送的用于访问该网站的标识码,该标识码是由服务器验证出身份信息合法后发送的,在使用该标识码访问该网站各网页的过程中,采用网络爬虫程序对该网站进行数据采集。本专利技术中在网络爬虫程序中预先存储用于登录待采集的网站的身份信息,通过该身份信息从服务器处获取标识码,然后基于该标识码网络爬虫程序访问网站的各网页,从而可以实现对网站数据的采集。【附图说明】图1为本专利技术实施例提供的一种网站数据采集方法的流程示意图;图2为本专利技术实施例提供的一种网站数据采集装置的结构示意图;图3为本专利技术实施例提供的另一种网站数据采集装置的结构示意图。【具体实施方式】下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1为本专利技术实施例提供的一种网站数据采集方法的流程示意图。本实施例中,该方法的执行主体为网站数据采集装置。如图1所示,该网站数据采集方法包括以下步骤:101、预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码。本实施例中,网站数据采集装置中设置有网络爬虫程序,网络数据采集装置的管理员可以向待采集的网站进行注册,获取到用于登录该网站的身份信息。该身份信息可以包括用于登陆该网站的登录账号和登录密码。在获取到身份信息后,网站数据采集装置将该身份信息设置在网络爬虫程序,具体地在编写网络爬虫程序时将身份信息写入其中,以使网络爬虫程序中可以携带登录网站的身份信息,这样网络爬虫程序基于该身份信息就可以登录待采集的网站,以实现对该网站的数据采集。102、将所述身份信息写入所述网站登录页面的登录表单中。网站数据采集装置将携带在网络爬虫程序中的身份信息写入待访问网站登录页面的登录表单中。其中,登录表单包括需要填写的登录账号和登录密码等信息。在将所述身份信息写入所述网站登录页面的登录表单中之前,本实施例中提供的网站数据采集方法包括:网站数据采集装置在对网站进行登陆之前,首先向网站对应的服务器发送访问请求,以请求打开该网站的登录页面。一般访问请求为该网站的登录页面的地址。在接收到访问请求后,服务器向网站数据采集装置发送用于登录该网站的脚本文件。其中,该脚本文件中包括用于加密的随机码和加密算法。一般,网站数据采集装置对该脚本文件进行解析,得到用于获取随机码的第一 URL链接,以及用于获取加密算法的第二 URL链接。在获取到第一 URL链接和第二 URL链接后,网站数据采集装置可以访问第一 URL链接获取随机码,以及访问第二 URL链接获取加密算法。优选地,用于加密的加密算法包括Base64和消息摘要算法第 5 版(Message Digest Algorithm,简称 MD5)。可选地,登录表单中还可以包括需要填写的验证码,相应地,服务器返回的脚本文件中包括该验证码的URL链接,网站数据采集装置基于该验证码的URL链接获取到验证码,然后将验证码写入登录表单中。103、对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性。为了保证身份信息的安全性,网站数据采集装置可以对登录表单进行加密,即写入到登录表单的身份信息进行加密,将加密后的登录表单发送给服务器,以使服务器验证该身份信息的合法性。具体地,网站数据采集装置从脚本文件中获取到加密用的随机码和加密算法,然后基于随机码和加密算法对登录表单进行加密。在对登录表单加密完成后,网站数据采集装置将加密后的登录表单写入验证请求,将携带有加密后的登录表单的验证请求发送给服务器,服务器在接收到该验证请求后,从中提出加密后的登录表单,并且采用与加密过程对应的解密过程对加密后的登录表单进行解密,得到用于登录待采集网站的身份信息。例如,网站数据采集装置将身份信息中的登录账号和登录密码,作为加密算法的输入,结合随机码生成该身份信息对应的字串,基于脚本文件中服务器发送的身份验证的URL链接,将该字串发送给服务器。可选地,可以采用加密算法对身份信息进行多重加密操作,提高身份信息的安全性。在获取到身份信息后,服务器验证该身份信息的合法性,具体地,查询服务器中预存的身份信息列表,如果该身份信息属于该身份信息列表中,说明该身份信息合法;如果该身份信息不属于身份信息列表,说明该身份信息不合法。在判断出身份信息合法后本文档来自技高网...

【技术保护点】
一种网站数据采集方法,其特征在于,包括:预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码;将所述身份信息写入所述网站登录页面的登录表单中;对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性;接收所述服务器发送的用于访问所述网站的标识码;所述标识码是由所述服务器验证出所述身份信息合法后发送的;在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。

【技术特征摘要】
1.一种网站数据采集方法,其特征在于,包括: 预先在网络爬虫程序中设置用于登录待采集网站的身份信息;所述身份信息包括登录账号和登录密码; 将所述身份信息写入所述网站登录页面的登录表单中; 对所述登录表单进行加密发送给所述网站对应的服务器,以使所述服务器验证所述身份信息的合法性; 接收所 述服务器发送的用于访问所述网站的标识码;所述标识码是由所述服务器验证出所述身份信息合法后发送的; 在使用所述标识码访问所述网站各网页的过程中,采用所述网络爬虫程序对所述网站进行数据采集。2.根据权利要求1所述的网站数据采集方法,其特征在于,所述将所述身份信息写入所述网站登录页面的登录表单中之前,还包括: 向所述服务器发送访问请求,以请求打开所述登录页面; 接收所述服务器发送的用于登录所述网站的脚本文件; 从所述脚本文件中获取用于加密的随机码和加密算法。3.根据权利要求2所述的网站数据采集方法,其特征在于,所述从所述脚本文件中获取用于加密的随机码和加密算法包括: 对所述脚本文件进行解析,得到所述随机码的第一统一资源定位符URL链接和所述加密算法的第二 URL链接; 访问所述第一 URL链接获取所述随机码,以及访问所述第二 URL链接获取所述加密算法。4.根据权利要求3所述的网站数据采集方法,其特征在于,所述对所述登录表单进行加密发送给网站对应的服务器,以使所述服务器验证所述身份信息的合法性包括: 采用所述随机码和所述加密算法对所述登录表单进行加密; 将加密后的所述登录表单携带在验证请求中发送给所述服务器,以使所述服务器服务器验证所述身份信息是否合法。5.根据权利要求4所述的网站数据采集方法,其特征在于,所述脚本文件中携带所述服务器接收到所述访问请求的时间戳; 将所述时间戳携带在所述验证请求中发送给所述服务器,以使所述服务器根据所述时间戳和所述服务器的当时时间判断所述登录表单是否超时。6.一种网站数据采集...

【专利技术属性】
技术研发人员:杜璞周凌燕胡羽中
申请(专利权)人:北京人民在线网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1