一种网络数据采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28501998 阅读:14 留言:0更新日期:2021-05-19 22:47
本发明专利技术涉及计算机网络技术领域,公开了一种网络数据采集方法、装置、计算机设备及存储介质。通过本发明专利技术创造,提供了一种基于模拟用户行为工具Se l n ium的网络数据采集方案,即可以在获取待执行抓取任务后,应用模拟用户行为工具Se l n ium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。性和通用性。性和通用性。

【技术实现步骤摘要】
一种网络数据采集方法、装置、计算机设备及存储介质


[0001]本专利技术属于计算机网络
,具体地涉及一种网络数据采集方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机网络技术的不断发展,网上信息的获取已经成为人们认识事件的主要途径之一,面对每时每刻都会产生得大量网络信息资源,人们往往会陷入窘迫的境地,一方面收到的海量信息无从选择和消化,使得其淹没在繁杂的信息中,另一方面是信息迷失,人们难于找到自己真正需要的信息;因此,如何能够快速高效地采集和抓取网络站点是现如今人们对于获取网络信息的迫切需求。
[0003]在采集和抓取网络站点的数据时,会发现很多网站数据需要通过登录验证才可以展示页面内容,或者是需要在整个页面的DOM(Document Object Mode,文档对象模型)结构加载完之后才会执行。如果使用常规的网络爬虫方法直接获取页面内容,则无法获取到需要的数据内容,这大大降低了网络数据采集的效率和质量。而如果需要获取到登录验证的数据或者网页加载完毕展示的数据,就需要对网站的请求的数据源地址进行分析或者记录下网站的登录验证cookie,而这种方法会导致爬虫的时效性降低,需要持续地获取网络爬虫的登录密钥,增加了网络数据采集的维护成本。

技术实现思路

[0004]为了解决现有网络数据采集方法所存在需要检测用户行为及需要用户登陆等,导致采集效率低、质量差和维护成本高的问题,本专利技术目的在于提供一种网络数据采集方法、装置、计算机设备及存储介质,可以在获取待执行抓取任务后,应用模拟用户行为工具Selnium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。
[0005]第一方面,本专利技术提供了一种网络数据采集方法,包括:
[0006]访问用于存放抓取任务的第一数据库,获取至少一个待执行抓取任务,其中,所述抓取任务包含有待爬取统一资源定位符URL地址;
[0007]将所述至少一个待执行抓取任务添加到当前任务队列中,得到新任务队列,其中,所述新任务队列包含有按照执行先后顺序依次排列的至少一个待执行抓取任务;
[0008]应用模拟用户行为工具Selnium依次执行在所述新任务队列中的各个待执行抓取任务,以便通过所述模拟用户行为工具Selnium模拟用户使用浏览器和对应任务的所述待爬取统一资源定位符URL地址进行网页访问,并下载获取网页内容;
[0009]解析所述网页内容,获取至少一个解析数据;
[0010]根据所述至少一个解析数据,获取至少一个结构化数据;
[0011]将所述至少一个结构化数据存放到第二数据库中。
[0012]基于上述
技术实现思路
,提供了一种基于模拟用户行为工具Selnium的网络数据采集方案,即可以在获取待执行抓取任务后,应用模拟用户行为工具Selnium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。
[0013]在一个可能的设计中,访问用于存放抓取任务的第一数据库,获取至少一个待执行抓取任务,包括:
[0014]周期性地访问所述第一数据库,查找到在所述第一数据库中存放的多个抓取任务,其中,所述抓取任务还包含有抓取开关状态、最近执行时间和预设执行周期;
[0015]针对所述多个抓取任务中的各个抓取任务,若对应任务的所述抓取开关状态为打开状态且当前访问时间至对应任务的所述最近执行时间的时间差大于或等于对应任务的所述预设执行周期,则将该抓取任务作为所述待执行抓取任务。
[0016]在一个可能的设计中,将所述至少一个待执行抓取任务添加到当前任务队列中,得到新任务队列,包括:
[0017]针对所述至少一个待执行抓取任务中的各个待执行抓取任务,根据对应任务中的预设优先级和/或对应任务的队列添加时间,计算得到对应的任务优先指标值,其中,所述任务优先指标值用于表征抓取任务的执行先后顺序;
[0018]针对所述至少一个待执行抓取任务中的各个待执行抓取任务,根据对应任务的所述任务优先指标值,将该待执行抓取任务排列到所述当前任务队列中,得到所述新任务队列。
[0019]在一个可能的设计中,应用模拟用户行为工具Selnium依次执行在所述新任务队列中的各个待执行抓取任务,包括:
[0020]将所述新任务队列中的各个待执行抓取任务依次地且一一对应地分配给多任务执行单元中的各个任务执行单元,以便由所述任务执行单元应用所述模拟用户行为工具Selnium的分布式测试用例执行分配到的待执行抓取任务,其中,所述多任务执行单元包括有启动多进程的本地服务器和/或至少一个从属服务器,所述本地服务器通过分布式网络通信连接所述至少一个从属服务器。
[0021]在一个可能的设计中,下载获取网页内容,包括有如下步骤S301~S303:
[0022]S301.在打开网页内容后,通过所述模拟用户行为工具Selnium模拟用户的目标识别行为,以便判断所述页面内容是否为抓取目标;
[0023]S302.若是,则下载获取所述网页内容,否则执行步骤S303;
[0024]S303.通过所述模拟用户行为工具Selnium模拟用户的点击操作行为/和用户登录行为,以便打开下一个网页内容,然后返回执行步骤S301。
[0025]在一个可能的设计中,根据所述至少一个解析数据,获取至少一个结构化数据,包括:
[0026]根据预设提取规则,从所述至少一个解析数据中提取出符合所述预设提取规则的至少一个目标数据;
[0027]针对所述至少一个目标数据中的各个目标数据,判断对应的数据形式是否为网页链接地址形式,若否,则进一步判断对应的数据字段信息是否有缺失;
[0028]针对所述至少一个目标数据中的各个目标数据,若判定对应的数据字段信息有缺失,则删除该目标数据,否则对该目标数据进行数据清洗处理和结构化处理,得到所述结构化数据。
[0029]在一个可能的设计中,在针对所述至少一个目标数据中的各个目标数据,判断对应的数据形式是否为网页链接地址形式之后,所述方法还包括:
[0030]若是,则生成一个新抓取任务,并将所述新抓取任务作为待执行抓取任务添加到当前任务队列中,其中,所述新抓取任务包含有该目标数据中的统一资源定位符URL地址。
[0031]基于上述可能设计,可以在解析网页内容后,若识别到新的统一资源定位符URL地址,可以基于该统一资源定位符URL地址自动新增抓取任务,从而采集获取更多的网络数据,进一步提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络数据采集方法,其特征在于,包括:访问用于存放抓取任务的第一数据库,获取至少一个待执行抓取任务,其中,所述抓取任务包含有待爬取统一资源定位符URL地址;将所述至少一个待执行抓取任务添加到当前任务队列中,得到新任务队列,其中,所述新任务队列包含有按照执行先后顺序依次排列的至少一个待执行抓取任务;应用模拟用户行为工具Selnium依次执行在所述新任务队列中的各个待执行抓取任务,以便通过所述模拟用户行为工具Selnium模拟用户使用浏览器和对应任务的所述待爬取统一资源定位符URL地址进行网页访问,并下载获取网页内容;解析所述网页内容,获取至少一个解析数据;根据所述至少一个解析数据,获取至少一个结构化数据;将所述至少一个结构化数据存放到第二数据库中。2.如权利要求1所述的网络数据采集方法,其特征在于,访问用于存放抓取任务的第一数据库,获取至少一个待执行抓取任务,包括:周期性地访问所述第一数据库,查找到在所述第一数据库中存放的多个抓取任务,其中,所述抓取任务还包含有抓取开关状态、最近执行时间和预设执行周期;针对所述多个抓取任务中的各个抓取任务,若对应任务的所述抓取开关状态为打开状态且当前访问时间至对应任务的所述最近执行时间的时间差大于或等于对应任务的所述预设执行周期,则将该抓取任务作为所述待执行抓取任务。3.如权利要求1所述的网络数据采集方法,其特征在于,将所述至少一个待执行抓取任务添加到当前任务队列中,得到新任务队列,包括:针对所述至少一个待执行抓取任务中的各个待执行抓取任务,根据对应任务中的预设优先级和/或对应任务的队列添加时间,计算得到对应的任务优先指标值,其中,所述任务优先指标值用于表征抓取任务的执行先后顺序;针对所述至少一个待执行抓取任务中的各个待执行抓取任务,根据对应任务的所述任务优先指标值,将该待执行抓取任务排列到所述当前任务队列中,得到所述新任务队列。4.如权利要求1所述的网络数据采集方法,其特征在于,应用模拟用户行为工具Selnium依次执行在所述新任务队列中的各个待执行抓取任务,包括:将所述新任务队列中的各个待执行抓取任务依次地且一一对应地分配给多任务执行单元中的各个任务执行单元,以便由所述任务执行单元应用所述模拟用户行为工具Selnium的分布式测试用例执行分配到的待执行抓取任务,其中,所述多任务执行单元包括有启动多进程的本地服务器和/或至少一个从属服务器,所述本地服务器通过分布式网络通信连接所述至少一个从属服务器。5.如权利要求1所述的网络数据采集方法,其特征在于,下载获取网页内容,包括有如下步骤S301~S303:S301.在打开网页内容后,通过所述模拟用户行为工具Selnium模拟用户的目标识别行为,以便判断所述页面内容是...

【专利技术属性】
技术研发人员:龚剑徐桢虎唐弋松占钦
申请(专利权)人:四川封面传媒有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1