一种数据采集方法、系统和存储介质技术方案

技术编号:34519907 阅读:50 留言:0更新日期:2022-08-13 21:08
本申请实施例公开了一种数据采集方法、系统和存储介质;本申请实施例可以登录客户端,获取客户端的至少一个候选界面;当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;对所述目标界面进行目标信息的检测:若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。由此,本方案可以提升数据采集的成功率。本方案可以提升数据采集的成功率。本方案可以提升数据采集的成功率。

【技术实现步骤摘要】
一种数据采集方法、系统和存储介质


[0001]本申请涉及数据采集领域,具体涉及一种数据采集方法、系统和存储介质。

技术介绍

[0002]数据采集是指利用多个数据库来接收发自客户端(万维网或手机软件)的数据,并且可以通过这些数据库进行简单的查询和处理工作的过程。进行数据采集时,可以通过网络爬虫进行数据的抓取,网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
[0003]然而,现有的客户端在登陆后都具有一定的反爬措施,因此,使得用户在进行数据采集时成功率较低,无法直接获取到期望的数据,不能满足用户的需求。

技术实现思路

[0004]本申请实施例提供一种数据采集方法、装置和存储介质,可以提升数据采集的成功率,从而获取到期望的数据,满足用户的需求。
[0005]本申请实施例提供一种数据采集方法,包括:
[0006]登录客户端,获取客户端的至少一个候选界面;
[0007]当候选界面上存在有障碍窗口时,对障碍窗口进行关闭处理;
[0008]从至少一个候选界面中确定目标界面,目标界面的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:登录客户端,获取所述客户端的至少一个候选界面;当所述候选界面上存在有障碍窗口时,对所述障碍窗口进行关闭处理;从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型;对所述目标界面进行目标信息的检测:若所述目标界面中不存在目标信息,则对所述目标界面进行第一数据采集处理,得到所述目标界面的数据;若所述目标界面中存在目标信息,对所述目标信息进行第二数据采集处理,得到所述目标信息的数据。2.根据权利要求1所述的数据采集方法,其特征在于,当所述客户端为网站客户端,所述登录客户端的方法包括:确定所述客户端,以及所述客户端的登录界面;向所述客户端的登录界面输入待登录的用户信息,获取所述客户端反馈的验证界面;确定所述验证界面上的验证信息,判断所述验证信息的类型:当所述验证信息为二维码信息时,对所述登录界面展示的二维码信息进行截图处理,得到二维码图像;对所述二维码图像进行扫码登录处理,登录所述客户端;当所述验证信息为登录认证请求时,确定与所述用户信息绑定的常用终端;获取所述常用终端接收到的验证码信息,其中,所述验证码信息为用于认证所述登录认证请求的信息;向所述客户端的验证界面输入验证码信息,登录所述客户端。3.根据权利要求1所述的数据采集方法,其特征在于,所述从所述至少一个候选界面中确定目标界面,所述目标界面的界面类型为预设类型的方法包括:将所述候选界面与预设的目标比对界面进行匹配比对处理;当所述候选界面与所述目标比对界面匹配时,确定所述候选界面为目标界面。4.根据权利要求1所述的数据采集方法,其特征在于,所述对所述目标界面进行目标信息的检测的方法包括:对所述目标界面进行文字提取处理,获得所述目标界面的文本信息;将所述目标界面的文本信息与设定的目标信息进行文本相似度匹配若所述目标界面的文本信息中存在文本相似度高于预设阈值的文本字段,则所述目标界面中存在所述目标信息;若所述目标界面的文本信息中不存在文本相似度高于预设阈值的文本字段,则所述目标界面中不存在所述目标信息。5.根据权利要求4所述的数据采集方法,其特征在于,所述对所述目标界面进行文字提取处理,获得所述目标界面的文本信息的方法包括:对所述目标界面进行截图处理,得到所述目标界面的界面图像;识别所述界面图像中的...

【专利技术属性】
技术研发人员:张成文翟佩文莫闻政陈灿王林波李袁刘振强
申请(专利权)人:深圳TCL数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1