一种爬取第三方网站数据的方法及终端技术

技术编号：28559163 阅读：21 留言：0更新日期：2021-05-25 17:53

本发明专利技术涉及一种爬取第三方网站数据的方法及终端，包括：S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码，根据所述网址、账号和密码登录所述网站；S2、根据预设规则爬取所述网站的数据；S3、验证所述数据的完整性，若所述数据完整，则将所述数据存入所述数据库。从数据库中获取需要爬取的网站信息后，根据预设规则自主爬取这些网站的数据，且能够对这些数据进行完整性判断，保证了爬取数据的完整性，同时避免人工登录多个网站来爬取数据，节约了人力和时间成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种爬取第三方网站数据的方法及终端
本专利技术涉及计算机软件领域，尤其涉及一种爬取第三方网站数据的方法及终端。
技术介绍
目前，当需要爬取第三方平台的数据时，需要人工登录平台，复制需要的内容存入本地，由于爬取的数据量庞大，抓取平台极多，人工爬取不仅费时费力，而且容易遗漏，更无法保证数据的准确性。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题，本专利技术提供一种爬取第三方网站数据的方法及终端，能够节约人力。(二)技术方案为了达到上述目的，本专利技术采用的一种技术方案为：一种爬取第三方网站数据的方法，包括：S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码，根据所述网址、账号和密码登录所述网站；S2、根据预设规则爬取所述网站的数据；S3、验证所述数据的完整性，若所述数据完整，则将所述数据存入所述数据库。本专利技术采用的另一种技术方案为：一种爬取第三方网站数据的终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码，根据所述网址、账号和密码登录所述网站；S2、根据预设规则爬取所述网站的数据；S3、验证所述数据的完整性，若所述数据完整，则将所述数据存入所述数据库。(三)有益效果本专利技术的有益效果是：从数据库中获取需要爬取的网站信息后，根据预设规则...

【技术保护点】
1.一种爬取第三方网站数据的方法，其特征在于，包括：/nS1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码，根据所述网址、账号和密码登录所述网站；/nS2、根据预设规则爬取所述网站的数据；/nS3、验证所述数据的完整性，若所述数据完整，则将所述数据存入所述数据库。/n

【技术特征摘要】
1.一种爬取第三方网站数据的方法，其特征在于，包括：
S1、从数据库获取需要爬取数据的网站的网址及其对应的账号和密码，根据所述网址、账号和密码登录所述网站；
S2、根据预设规则爬取所述网站的数据；
S3、验证所述数据的完整性，若所述数据完整，则将所述数据存入所述数据库。

2.根据权利要求1所述的爬取第三方网站数据的方法，其特征在于，所述S1中根据所述网址、账号和密码登录所述网站包括：
根据所述网址打开所述网站，输入所述账号和密码，判断所述网站是否存在验证码校验，若存在，则解析验证码图片获取验证码，输入所述验证码登录所述网站。

3.根据权利要求1所述的爬取第三方网站数据的方法，其特征在于，所述S2中根据预设规则爬取所述网站的数据包括：
判断所述网站是否暴露数据接口；
若是，则获取所述数据接口的接口数据，将所述接口数据存入所述数据库；
若否，则爬取所述网站的网页，解析所述网页得到网页数据，将所述网页数据存入所述数据库。

4.根据权利要求1所述的爬取第三方网站数据的方法，其特征在于，所述S3包括：
将所述数据与历史数据进行对比，判断两者的数据量的差值和数据值的差值是否都在预设范围内，
若是，则判断所述数据完整，将所述数据存入所述数据库；
若否，则判断所述数据不完整，重新根据预设规则爬取所述网站的数据，并再次验证所述数据的完整性，若验证结果仍为不完整，则发送邮件至开发人员账号进行通知。

5.据权利要求4所述的爬取第三方网站数据的方法，其特征在于，所述若否，则判断所述数据不完整之后还包括：
判断登录信息是否过期，若是，则重新登录所述网站。

6.一种爬取第三方网站数据的终端，包括存...

【专利技术属性】
技术研发人员：陈翔，唐光宇，闫乃永，卢学明，林智明，
申请(专利权)人：宝宝巴士股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人