The invention relates to a method for crawling web data. The method includes obtaining web address from the website to climb to climb, according to the web page address from the website, get the valid login data corresponding to the climb from the website; according to the valid login data, from the network address database were randomly selected from the available network address; experience certificate after the success of the crawl log from the website, and according to the corresponding web crawling rendering rendering the web crawling crawling has been completed; rendering the web crawling access to web crawling data. The invention of the web data crawling method, device and web data crawling platform Ji Cunchu medium, can be randomly selected from the available network address every time log in, so as to prevent multiple account login through the same server, web crawling to trigger the risk control mechanism, cause the server to be blacklisted, guarantee a successful login to web crawling, and crawling to crawl the web data, improve the availability.
【技术实现步骤摘要】
网页数据爬取方法、装置、网页数据爬取平台及存储介质
本专利技术涉及计算机
,特别是涉及一种网页数据爬取方法、装置、网页数据爬取平台及存储介质。
技术介绍
随着互联网的发展,用户越来越重视从网络上获取信息,则需要针对不同的用户提供更多样且更精确的服务,因此需要通过网络数据爬取平台爬取用户所需的相关内容的数据,例如服务提供商给用户提供信用卡还款提醒服务时,需要获取用户的信用卡的账单信息,因此服务提供商需要先从信用卡所属的银行网页爬取用户的信用卡账单信息,并分析该账单信息后,生成提示信息,并发送至用户终端。传统地,在对待爬取网页的网页数据进行爬取时,通常都是通过服务器端进行爬取,这样会导致当多个账户需要通过该服务器进行登录时,会触发待爬取网页所设置的风控机制,导致服务器被列入黑名单,不能登录该待爬取网页,导致可用性降低。
技术实现思路
基于此,有必要针对在对网页数据爬取过程中,多个账户通过相同的服务器端对进行登录时,导致服务器会被列入黑名单,从而无法登陆待爬取网页,导致可用性降低的问题,提供一种网页数据爬取方法、装置、网页数据爬取平台及存储介质。一种网页数据爬取方法, ...
【技术保护点】
一种网页数据爬取方法,其特征在于,所述方法包括:获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;根据有效登录数据,从网络地址库中随机选取可用的网络地址;经验证成功后登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;爬取已渲染完成的所述待爬取网页获取待爬取网页数据。
【技术特征摘要】
1.一种网页数据爬取方法,其特征在于,所述方法包括:获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;根据有效登录数据,从网络地址库中随机选取可用的网络地址;经验证成功后登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;爬取已渲染完成的所述待爬取网页获取待爬取网页数据。2.根据权利要求1所述的方法,其特征在于,所述爬取已渲染完成的所述待爬取网页获取待爬取网页数据的步骤,包括:根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。3.根据权利要求1所述的方法,其特征在于,所述经验证成功后登录所述待爬取网页,并根据与所述待爬取页面相对应的渲染方式渲染所述待爬取网页的步骤包括:当所述待爬取网页登录成功时,则检测所述待爬取网页是否渲染完成;当所述待爬取网页未渲染完成时,则选取与所述待爬取网页相对应的渲染方式渲染所述待爬取网页。4.根据权利要求3所述的方法,其特征在于,所述当所述待爬取网页未渲染完成时,则选取与所述待爬取网页相对应的渲染方式渲染所述待爬取网页的步骤,包括:当所述待爬取网页的数据未渲染完成时,则获取所述待爬取网页的网页地址所携带的域名,将所述域名与爬取配置库中存储的域名进行匹配;当所述待爬取网页的网页地址所携带的域名与所述爬取配置库中存储的域名匹配成功时,则从所述爬取配置库中选取与匹配成功的域名相对应的渲染方式,并根据所选取的渲染方式渲染所述待爬取网页;当所述待爬取网页的网页地址所携带的域名与所述爬取配置库中存储的域名未匹配成功时,则从所述待爬取网页的网站服务器获取所述待爬取网页的渲染方式,将所...
【专利技术属性】
技术研发人员:艾明,
申请(专利权)人:上海壹账通金融科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。