数据采集方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:37548150 阅读:17 留言:0更新日期:2023-05-12 16:24
本发明专利技术涉及电子信息技术领域,并公开了一种数据采集方法、装置、存储介质及计算机设备。其中方法包括构建任务列表,在任务列表中确定目标站点,并获取目标站点中每个网页的请求参数,然后根据请求参数在目标站点中提取目标网页,并计算目标网页的优先级,基于优先级生成任务执行队列,再将任务执行队列发送到至少两个主机设备中,以基于任务执行队列执行数据采集任务,得到目标网页的采集数据,最终对采集数据进行解析和清洗优化,得到数据采集结果,并将数据采集结果存储至数据库中。上述方法通过至少两个主机设备高并发的对多目标网页进行数据采集,并对多目标网页的数据采集顺序按照优先级进行针对性排序,数据采集方式灵活且高效。高效。高效。

【技术实现步骤摘要】
数据采集方法、装置、存储介质及计算机设备


[0001]本专利技术涉及电子信息
,尤其是涉及一种数据采集方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着信息技术的迅速发展,万维网成为重要的信息数据载体。为了在万维网的海量信息中稳定高效且准确地获取数据,各种数据采集技术应运而生,应用数据采集技术能够快速从万维网中抓取数据并结构化存入数据库中。
[0003]目前,随着业务需求的种类和数量不断增加,所需采集的数据量也在不断增长,所需采集数据频率也越来越快,与此同时,万维网中的数据呈几何量级般的增长,且各网站设置的数据获取机制不同,导致任务执行时间变长,数据采集的难度增加,数据采集的效率变低,进而使得常规的数据采集技术无法灵活、快速、高效地采集多网站的网页数据。

技术实现思路

[0004]有鉴于此,本申请提供的数据采集方法、装置、存储介质及计算机设备,主要目的在于解决现有技术中常规的数据采集技术无法灵活、快速、高效地采集多网站的网页数据的技术问题。
[0005]根据本专利技术的第一个方面,提供了一种数据采集方法,该方法包括:
[0006]构建任务列表,在所述任务列表中确定目标站点,并获取所述目标站点中每个网页的请求参数,其中,所述目标站点包括至少一个网页;
[0007]根据所述请求参数,在所述目标站点中提取目标网页,并计算所述目标网页的优先级,基于所述目标网页的优先级生成任务执行队列;
[0008]将所述任务执行队列发送到至少两个主机设备中,以使所述至少两个主机设备基于所述任务执行队列逐一执行数据采集任务,得到所述目标网页的采集数据;
[0009]对所述采集数据进行解析和清洗优化,得到数据采集结果,并将所述数据采集结果存储至数据库中。
[0010]根据本专利技术的第二个方面,提供了一种数据采集装置,该装置包括:
[0011]任务获取模块,用于构建任务列表,在所述任务列表中确定目标站点,并获取所述目标站点中每个网页的请求参数,其中,所述目标站点包括至少一个网页;
[0012]任务生成模块,用于根据所述请求参数,在所述目标站点中提取目标网页,并计算所述目标网页的优先级,基于所述目标网页的优先级生成任务执行队列;
[0013]任务执行模块,用于将所述任务执行队列发送到至少两个主机设备中,以使所述至少两个主机设备基于所述任务执行队列逐一执行数据采集任务,得到所述目标网页的采集数据;
[0014]数据存储模块,用于对所述采集数据进行解析和清洗优化,得到数据采集结果,并将所述数据采集结果存储至数据库中。
[0015]根据本专利技术的第三个方面,提供了一种存储介质,其上存储有计算机程序,程序被处理器执行时实现上述数据采集方法。
[0016]根据本专利技术的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述数据采集方法。
[0017]本专利技术提供的一种数据采集方法、装置、存储介质及计算机设备,本申请首先构建任务列表,在任务列表中确定目标站点,并获取目标站点中每个网页的请求参数,其中,目标站点包括至少一个网页,然后根据请求参数在目标站点中提取目标网页,并计算目标网页的优先级,基于目标网页的优先级生成任务执行队列,再将任务执行队列发送到至少两个主机设备中,以使至少两个主机设备基于任务执行队列逐一执行数据采集任务,得到目标网页的采集数据,最终对采集数据进行解析和清洗优化,得到数据采集结果,并将数据采集结果存储至数据库中。上述方法对目标站点中的网页进行筛选,确定所要采集的目标网页,避免直接访问无效网页浪费数据采集时间。通过获取目标网页自身的请求参数来计算各个目标网页的优先级,并生成基于目标网页优先级生成的任务执行队列,以对各个目标网页的数据采集顺序进行优化。将任务执行队列发送到至少两个主机设备以执行数据采集任务,能够异步采集目标网页的数据,提升数据采集的效率。最终将得到的数据采集结果存储至数据库中,便于随时查看与获取。上述方法通过至少两个主机设备高并发的对多目标网页进行数据采集,并对多目标网页进行针对性排序,数据采集方式灵活且高效,避免因各个目标站点的数据获取机制不同导致数据采集任务执行低效的情况出现。
[0018]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0019]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0020]图1示出了本专利技术提供的一种实施例中数据采集方法的流程示意图;
[0021]图2示出了本专利技术提供的一种实施例中数据采集方法的流程示意图;
[0022]图3示出了本专利技术提供的一种实施例中数据采集方法的原理流程图;
[0023]图4示出了本专利技术提供的一种实施例中数据采集装置的结构示意图;
[0024]图5示出了本专利技术提供的一种实施例中计算机设备的装置结构示意图。
具体实施方式
[0025]下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
[0026]本申请实施例提供了一种数据采集方法,如图1所示,该方法包括以下步骤:
[0027]101、构建任务列表,在任务列表中确定目标站点,并获取目标站点中每个网页的请求参数,其中,目标站点包括至少一个网页。
[0028]首先对本方法适用的应用场景进行介绍,随着信息技术的迅速发展,为了在万维网的海量信息中稳定高效且准确地获取数据,通常应用数据采集技术以快速从万维网中抓取数据并结构化存入数据库中。但是随着业务需求的种类和数量不断增加,所需采集的数据量也在不断增长,所需采集数据频率也越来越快,同时,万维网中的数据呈几何量级般的增长,且各网站通过设置的数据获取机制不同,导致任务执行时间变长,数据采集的难度增加,数据采集的效率变低,进而使得常规的数据采集技术无法灵活、快速地采集多网站的数据。
[0029]具体地,站点是指互联网中一个网站的准确访问地址,而网站是使用HTML标准通用标记语言等工具制作的用于展示特定内容相关网页的集合,通过获取并访问网站的站点,便能访问网站中的所有网页,而网站中所包含的网页可以是一个,也可以是很多个。网站中的多个网页通常是通过不同的网址进行链接的,即能够从一个网页的链接点击可以打开另一个链接的网页。
[0030]进而本申请提出一种数据采集方法,首先需要构建一个任务列表,在任务列表中确定目标站点,通过访问目标站点便能直接访问到所需采集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:构建任务列表,在所述任务列表中确定目标站点,并获取所述目标站点中每个网页的请求参数,其中,所述目标站点包括至少一个网页;根据所述请求参数,在所述目标站点中提取目标网页,并计算所述目标网页的优先级,基于所述目标网页的优先级生成任务执行队列;将所述任务执行队列发送到至少两个主机设备中,以使所述至少两个主机设备基于所述任务执行队列逐一执行数据采集任务,得到所述目标网页的采集数据;对所述采集数据进行解析和清洗优化,得到数据采集结果,并将所述数据采集结果存储至数据库中。2.根据权利要求1所述的方法,其特征在于,所述请求参数包括状态码、响应时间和结果数量;所述根据所述请求参数,在所述目标站点中提取目标网页,并计算所述目标网页的优先级,基于所述目标网页的优先级生成任务执行队列,包括:获取所述目标站点中每个网页的状态码,并将每个所述网页的状态码与预设状态码进行比对;当任一所述网页的状态码与所述预设状态码相同时,将所述网页标记为目标网页;获取所述目标网页的响应时间和结果数量,并基于所述目标网页的响应时间和结果数量计算所述目标网页的优先级;基于所述目标网页的优先级,按照所述优先级的数值由高到低的排序规则对所述目标网页进行排序,得到任务执行队列。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标网页的响应时间和结果数量计算所述目标网页的优先级,包括:通过预设的优先级计算公式,基于所述目标网页的响应时间和结果数量计算所述目标网页的优先级,所述优先级计算公式为:其中,P为所述目标网页的优先级,t为所述目标网页的响应时间,num为所述目标网页的结果数量。4.根据权利要求1所述的方法,其特征在于,所述将所述任务执行队列发送到至少两个主机设备中,以使所述至少两个主机设备基于所述任务执行队列逐一执行数据采集任务,包括:在所述至少两个主机设备中构建访问请求去重集合,其中,所述访问请求去重集合包括现有访问请求指纹;基于所述任务执行队列,获取所述任务执行队列中所述目标网页对应的新增访问请求指纹,将所述新增访问请求指纹与所述现有访问请求指纹进行比对;当所述新增访问请求指纹与任一所述现有访问请求指纹一致时,移除所述新增访问请求指纹,并在所述任务执行队列中确定所述新增访问请求指纹对应的目标网页,停止对所述目标网页执行数据采集任务;当所述新增访问请求指纹与任一所述现有访问请求指纹均不一致时,将所述新增访问
请求指纹作为现有访问请求指纹添加至所述访问请求去重集合中。5.根据权利要求4所述的方法,其特征在于,所述将所述任务执行队列发送到至少两个主机设备中,以使所述...

【专利技术属性】
技术研发人员:刘畅刘鑫
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1