一种爬取第三方网站数据的方法及终端技术

技术编号:28559163 阅读:21 留言:0更新日期:2021-05-25 17:53
本发明专利技术涉及一种爬取第三方网站数据的方法及终端,包括:S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;S2、根据预设规则爬取所述网站的数据;S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。从数据库中获取需要爬取的网站信息后,根据预设规则自主爬取这些网站的数据,且能够对这些数据进行完整性判断,保证了爬取数据的完整性,同时避免人工登录多个网站来爬取数据,节约了人力和时间成本。

【技术实现步骤摘要】
一种爬取第三方网站数据的方法及终端
本专利技术涉及计算机软件领域,尤其涉及一种爬取第三方网站数据的方法及终端。
技术介绍
目前,当需要爬取第三方平台的数据时,需要人工登录平台,复制需要的内容存入本地,由于爬取的数据量庞大,抓取平台极多,人工爬取不仅费时费力,而且容易遗漏,更无法保证数据的准确性。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题,本专利技术提供一种爬取第三方网站数据的方法及终端,能够节约人力。(二)技术方案为了达到上述目的,本专利技术采用的一种技术方案为:一种爬取第三方网站数据的方法,包括:S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;S2、根据预设规则爬取所述网站的数据;S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。本专利技术采用的另一种技术方案为:一种爬取第三方网站数据的终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;S2、根据预设规则爬取所述网站的数据;S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。(三)有益效果本专利技术的有益效果是:从数据库中获取需要爬取的网站信息后,根据预设规则自主爬取这些网站的数据,且能够对这些数据进行完整性判断,保证了爬取数据的完整性,同时避免人工登录多个网站来爬取数据,节约了人力和时间成本。附图说明图1为本专利技术的爬取第三方网站数据的方法的流程图;图2为本专利技术的爬取第三方网站数据的终端的结构示意图;【附图标记说明】1、一种爬取第三方网站数据的终端;2、存储器;3、处理器。具体实施方式为了更好的解释本专利技术,以便于理解,下面结合附图,通过具体实施方式,对本专利技术作详细描述。请参照图1所示,一种爬取第三方网站数据的方法,包括:S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;S2、根据预设规则爬取所述网站的数据;S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。从上述描述可知,本专利技术的有益效果在于:从数据库中获取需要爬取的网站信息后,根据预设规则自主爬取这些网站的数据,且能够对这些数据进行完整性判断,保证了爬取数据的完整性,同时避免人工登录多个网站来爬取数据,节约了人力和时间成本。进一步地,所述S1中根据所述网址、账号和密码登录所述网站包括:根据所述网址打开所述网站,输入所述账号和密码,判断所述网站是否存在验证码校验,若存在,则解析验证码图片获取验证码,输入所述验证码登录所述网站。从上述描述可知,当网站上存在验证码校验的环节时,可自动解析验证码图片获取验证码,不需要人力操作,节约了人力资源。进一步地,所述S2中根据预设规则爬取所述网站的数据包括:判断所述网站是否暴露数据接口;若是,则获取所述数据接口的接口数据,将所述接口数据存入所述数据库;若否,则爬取所述网站的网页,解析所述网页得到网页数据,将所述网页数据存入所述数据库。从上述描述可知,在爬取网站数据的过程中,由于通过网站的数据接口所爬取的数据更为可靠和完整,会先判断该网站是否暴露数据接口再执行不同的爬取方案,灵活性强。进一步地,所述S3包括:将所述数据与历史数据进行对比,判断两者的数据量的差值和数据值的差值是否都在预设范围内,若是,则判断所述数据完整,将所述数据存入所述数据库;若否,则判断所述数据不完整,重新根据预设规则爬取所述网站的数据,并再次验证所述数据的完整性,若验证结果仍为不完整,则发送邮件至开发人员账号进行通知。从上述描述可知,当验证数据的完整性不够时,会重复爬取数据并再次进行验证,避免第一次爬取存在失误的情况发生,并且重复爬取的数据的完整性不够的情况下,会及时通知开发人员,便于开发人员处理。进一步地,所述若否,则判断所述数据不完整之后还包括:判断登录信息是否过期,若是,则重新登录所述网站。从上述描述可知,当登录信息是否过期过期时,会自动重新登录网站,自动化程度高,进一步节约了人力。请参照图2所示,一种爬取第三方网站数据的终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;S2、根据预设规则爬取所述网站的数据;S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。从上述描述可知,本专利技术的有益效果在于:从数据库中获取需要爬取的网站信息后,根据预设规则自主爬取这些网站的数据,且能够对这些数据进行完整性判断,保证了爬取数据的完整性,同时避免人工登录多个网站来爬取数据,节约了人力和时间成本。进一步地,所述S1中根据所述网址、账号和密码登录所述网站包括:根据所述网址打开所述网站,输入所述账号和密码,判断所述网站是否存在验证码校验,若存在,则解析验证码图片获取验证码,输入所述验证码登录所述网站。从上述描述可知,当网站上存在验证码校验的环节时,可自动解析验证码图片获取验证码,不需要人力操作,节约了人力资源。进一步地,所述S2中根据预设规则爬取所述网站的数据包括:判断所述网站是否暴露数据接口;若是,则获取所述数据接口的接口数据,将所述接口数据存入所述数据库;若否,则爬取所述网站的网页,解析所述网页得到网页数据,将所述网页数据存入所述数据库。从上述描述可知,在爬取网站数据的过程中,由于通过网站的数据接口所爬取的数据更为可靠和完整,会先判断该网站是否暴露数据接口再执行不同的爬取方案,灵活性强。进一步地,所述S3包括:将所述数据与历史数据进行对比,判断两者的数据量的差值和数据值的差值是否都在预设范围内,若是,则判断所述数据完整,将所述数据存入所述数据库;若否,则判断所述数据不完整,重新根据预设规则爬取所述网站的数据,并再次验证所述数据的完整性,若验证结果仍为不完整,则发送邮件至开发人员账号进行通知。从上述描述可知,当验证数据的完整性不够时,会重复爬取数据并再次进行验证,避免第一次爬取存在失误的情况发生,并且重复爬取的数据的完整性不够的情况下,会及时通知开发人员,便于开发人员处理。进一步地,所述若否,则判断所述数据不完整之后还包括:判断登录信息是否过期,若是,则重新登录所述网站。从上述描述可知,当登录信息是否过期过期时,会自本文档来自技高网...

【技术保护点】
1.一种爬取第三方网站数据的方法,其特征在于,包括:/nS1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;/nS2、根据预设规则爬取所述网站的数据;/nS3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。/n

【技术特征摘要】
1.一种爬取第三方网站数据的方法,其特征在于,包括:
S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码,根据所述网址、账号和密码登录所述网站;
S2、根据预设规则爬取所述网站的数据;
S3、验证所述数据的完整性,若所述数据完整,则将所述数据存入所述数据库。


2.根据权利要求1所述的爬取第三方网站数据的方法,其特征在于,所述S1中根据所述网址、账号和密码登录所述网站包括:
根据所述网址打开所述网站,输入所述账号和密码,判断所述网站是否存在验证码校验,若存在,则解析验证码图片获取验证码,输入所述验证码登录所述网站。


3.根据权利要求1所述的爬取第三方网站数据的方法,其特征在于,所述S2中根据预设规则爬取所述网站的数据包括:
判断所述网站是否暴露数据接口;
若是,则获取所述数据接口的接口数据,将所述接口数据存入所述数据库;
若否,则爬取所述网站的网页,解析所述网页得到网页数据,将所述网页数据存入所述数据库。


4.根据权利要求1所述的爬取第三方网站数据的方法,其特征在于,所述S3包括:
将所述数据与历史数据进行对比,判断两者的数据量的差值和数据值的差值是否都在预设范围内,
若是,则判断所述数据完整,将所述数据存入所述数据库;
若否,则判断所述数据不完整,重新根据预设规则爬取所述网站的数据,并再次验证所述数据的完整性,若验证结果仍为不完整,则发送邮件至开发人员账号进行通知。


5.据权利要求4所述的爬取第三方网站数据的方法,其特征在于,所述若否,则判断所述数据不完整之后还包括:
判断登录信息是否过期,若是,则重新登录所述网站。


6.一种爬取第三方网站数据的终端,包括存...

【专利技术属性】
技术研发人员:陈翔唐光宇闫乃永卢学明林智明
申请(专利权)人:宝宝巴士股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1