网络数据采集处理方法、装置和电子设备制造方法及图纸

技术编号:28372983 阅读:17 留言:0更新日期:2021-05-08 00:00
本发明专利技术实施例公开了网络数据采集处理方法、装置和电子设备,该方法包括:获取目标网络数据;根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;通过所述调度控制文件控制将所述调度数据文件中的数据信息进行解析后存储在文件队列中。本发明专利技术网络数据采集存储效率高,资源利用率高。

【技术实现步骤摘要】
网络数据采集处理方法、装置和电子设备
本专利技术实施例涉及网络数据采集领域,具体涉及网络数据采集处理方法、装置和电子设备。
技术介绍
在网络数据采集时,需要多任务采集多个站点中的数据,多采用分布式来提升数据采集效率,即一个采集调度、多个采集爬虫来实现多个站点任务的同时采集。为了实现网络数据采集,需要选择站点中比较重要的、出度的URL作为被采集网站的入口地址(称为种子URL),爬虫将从这些种子URL开始采集,网页数据采集回来后,需要再次解析页面中数据元素,提取出页面中的URL再次进行采集。这样一个URL能解析出一批新的URL,如此反复进行,直到站点中全部URL采集完成。可以把站点内网页之间互相连接的关系结构视为一个森林,每个种子URL对应着一片森林的入口,通过这个入口可以发现整片森林。所以在网络数据采集的过程中,经常遇到URL爆发式增长,如何管理、保存与分配这些URL资源,实现爬虫与采集任务的合理调度具有重要意义。目前,对管理、保存与分配这些URL资源的的方式存在问题:1、没有调度,一个站点一个爬虫独立采集,将URL任务分散在爬虫上;各自独立工作,无法实现资源合理分配与多任务、多站点同采集调度。2、使用队列保存待采集的URL数据。使用内存较大,内存不够时易造成数据丢失,同时应用退出或系统重启会造成缓存数据丢失。3、使用数据库缓存URL地址数据。调度效率不高,每个URL调度需要添加、删除数据库记录一次,影响数据采集效率。4、使用kafka等中间件缓存URL地址数据。使用kafka等中间件缓存URL地址数据。
技术实现思路
本专利技术实施例的目的在于提供网络数据采集处理方法、装置和电子设备,用以解决现有数据采集存储时出现的问题。为实现上述目的,本专利技术实施例主要提供如下技术方案:第一方面,本专利技术实施例提供了一种网络数据采集处理方法,包括:获取目标网络数据;根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。根据本专利技术的一个实施例,通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中,包括:所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息存储到所述文件队列中。根据本专利技术的一个实施例,根据所述目标网络数据生成调度数据文件和调度控制文件,包括:将所述目标网络数据解析的解析结果存入缓存中;当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。根据本专利技术的一个实施例,根据所述目标网络数据生成调度数据文件和调度控制文件,还包括:对所述目标网络数据的解析结果进行分类;将同一类型的解析结果写入到多个调度数据文件中。第二方面,本专利技术实施例还提供一种网络数据采集处理装置,包括:获取模块,用于获取目标网络数据;生成模块,用于根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;存储模块,用于通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。根据本专利技术的一个实施例,所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息通过所述存储模块存储到所述文件队列中。根据本专利技术的一个实施例,还包括缓存模块,所述缓存模块用于缓存所述目标网络数据的解析结果;当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。根据本专利技术的一个实施例,所述生成模块还用于对所述目标网络数据的解析结果进行分类;将同一类型的解析结果写入到多个调度数据文件中。第三方面,本专利技术实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的网络数据采集处理方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的网络数据采集处理方法。本专利技术实施例提供的技术方案至少具有如下优点:本专利技术实施例提供的网络数据采集处理方法、装置和电子设备,以二进制文件流存储数据,并以顺序、单向的方式操作(包括读取和写入)数据的资源调度来实现对URL资源的保存、分配与管理,从而实现网络数据采集存储效率高,资源利用率高。附图说明图1为本专利技术实施例的网络数据采集处理方法的流程图。图2为本专利技术实施例的网络数据采集处理装置的结构框图。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本专利技术。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。在本专利技术的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。图1为本专利技术实施例的网络数据采集处理方法的流程图。如图1所示,本专利技术实施例的网络数据采集处理方法,包括:S1:获取目标网络数据。具体地,通过网络爬虫使用预定的算法获取指定的网络资源作为目标网络资源。其中,目标网络资源可以是某个网站中某一类型的资源,例如A网站的新闻资源。S2:根据目标网络数据生成调度数据文件和调度控制文件,其中,调度数据文件用于存储需要采集的任务。调度数据文件中的每条记录包括数据长度和数据信息。调度控制文件用于控制调度数据文件。调度控制文件包括数据来源、优先等级和数据读取相关信息。在本专利技术的一个实施例中,步骤S2包括:将目标网络数据解析的解析结果存入缓存中;当缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。具体地,解析程序在解析数据时会对解析结果进行缓存,并以特定方式触发缓存保存至文件。启动解析程序对调度数据文件的解析条件包括两种,一种是当缓存中的记录数本文档来自技高网
...

【技术保护点】
1.一种网络数据采集处理方法,其特征在于,包括:/n获取目标网络数据;/n根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;/n通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。/n

【技术特征摘要】
1.一种网络数据采集处理方法,其特征在于,包括:
获取目标网络数据;
根据所述目标网络数据生成调度数据文件和调度控制文件,其中,所述调度数据文件用于存储需要采集的任务,所述调度数据文件中的每条记录包括数据长度和数据信息,所述调度控制文件用于控制所述调度数据文件,所述调度控制文件包括数据来源、优先等级和数据读取相关信息;
通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中。


2.根据权利要求1所述的网络数据采集处理方法,其特征在于,通过所述调度控制文件控制将所述调度数据文件中的数据信息存储到文件队列中,包括:
所述调度控制文件根据资源的优先等级和资源序号将所述调度数据文件中的数据信息存储在所述文件队列中。


3.根据权利要求1所述的网络数据采集处理方法,其特征在于,根据所述目标网络数据生成调度数据文件和调度控制文件,包括:
将所述目标网络数据解析的解析结果存入缓存中;
当所述缓存中的记录数量达到预设数据阈值,或当缓存时长超过预设时间阈值,则根据所述目标网络数据解析的解析结果生成所述调度数据文件和所述调度控制文件。


4.根据权利要求3所述的网络数据采集处理方法,其特征在于,根据所述目标网络数据生成调度数据文件和调度控制文件,还包括:
对所述目标网络数据的解析结果进行分类;
将同一类型的解析结果写入到多个调度数据文件中。


5.一种网络数据采集处理装置,其特征在于,包括:
获取模块,用于获取目标网络数据;
生成模块,用于根据所述目标网络数据生成调度数据...

【专利技术属性】
技术研发人员:刘龙强
申请(专利权)人:北京鼎普科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1