网络数据分类式采集方法及装置制造方法及图纸

技术编号:14082409 阅读:48 留言:0更新日期:2016-11-30 19:46
本发明专利技术提供了一种网络数据分类式采集方法及装置,该方法包括:确定待采集数据,并确定待采集数据对应的至少一个分类参数;确定每一个分类参数对应的参数值;根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;针对每一个入口链接,逐个采集相应分类参数所对应的数据。本发明专利技术通过将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。

【技术实现步骤摘要】

本专利技术涉及大数据应用与分析领域,特别涉及一种网络数据分类式采集方法及装置
技术介绍
如今大数据时代悄然兴起,网络上充斥着大量的公开信息,而且大型互联网站比比皆是,因此这些网站成为了数据采集工作的重点对象。目前的数据采集方法为:在网站中找到所需数据对应的列表页面,由于信息量很大,该列表页面包括很多分页,通过翻页操作来对各个分页对应的数据进行采集,其中,在针对每一个分页进行数据采集时,需要逐条访问各个分页中所列出的详情页链接,从而采集到网站上所有的所需数据。然而对于大型的互联网站,其数据总量过大,以及受硬件环境的制约,网站上一般只会显示一部分数据,现有的采集方式是针对显示出的详情页链接进行数据采集的,因此,无法实现网站信息的全部覆盖,从而造成数据漏采问题。
技术实现思路
本专利技术实施例提供了一种网络数据分类式采集方法及装置,能够有效地解决现有技术中数据漏采的问题。第一方面,本专利技术实施例提供了一种网络数据分类式采集方法包括:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;确定每一个分类参数对应的参数值;根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;针对每一个入口链接,逐个采集相应分类参数所对应的数据。优选地,所述确定每一个分类参数对应的参数值,包括:确定所述待采集数据所在的目标网站;用于在所述目标网站中获取所述待采集数据对应的列表页面;在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。优选地,所述确定每一个分类参数对应的参数值,包括:获取预先存储的针对所述待采集数据的目标参数列表;根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。优选地,所述根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接,包括:分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。优选地,所述针对每一个入口链接,逐个采集相应分类参数所对应的数据,包括:针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。第二方面,本专利技术实施例提供了一种网络数据分类式采集装置,包括:第一确定单元,用于确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;第二确定单元,用于确定每一个分类参数对应的参数值;生成单元,用于根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;采集单元,用于针对每一个入口链接,逐个采集相应分类参数所对应的数据。优选地,所述第二确定单元,包括:第一确定子单元,用于确定所述待采集数据所在的目标网站;第一获取子单元,用于在所述目标网站中获取所述待采集数据对应的列表页面;选择子单元,用于在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;第二确定子单元,用于根据得到的各个分类链接,确定每一个分类参数对应的参数值。优选地,所述第二确定单元,包括:第二获取子单元,用于获取预先存储的针对所述待采集数据的目标参数列表;第三确定子单元,用于根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。优选地,所述生成单元,具体用于分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。优选地,所述采集单元,具体用于针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。本专利技术实施例提供了一种网络数据分类式采集方法及装置,通过确定待采集数据的至少一个分类参数,以将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种网络数据分类式采集方法流程图;图2是本专利技术一个实施例提供的另一种网络数据分类式采集方法流程图;图3是是本专利技术一个实施例提供的装置所在设备的硬件架构图;图4是本专利技术一个实施例提供的网络数据分类式采集装置结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种网络数据分类式采集方法,该方法可以包括以下步骤:步骤101:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;步骤102:确定每一个分类参数对应的参数值;步骤103:根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;步骤104:针对每一个入口链接,逐个采集相应分类参数所对应的数据。本专利技术实施例提供了一种网络数据分类式采集方法,通过确定待采集数据的至少一个分类参数,以将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。在本专利技术一个实施例中,为了使采集过程全面而且条理清晰,所述确定每一个分类参数对应的参数值,包括:确定所述待采集数据所在的目标网站;在所述目标网站中获取所述待采集数据对应的列表页面;在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。例如,待采集数据是美团上北京地区的所有麦当劳的数据信息,首先确定待采集数据所在的目标网站是美团,将“麦当劳”作为确定的分类参数,其次打开美团的首页,在当前首页的搜索栏中输入北京,系统会生成一个列表页面,然后在所述的列表页面中,找到麦当劳选项并点击,系统会生成一个与美团上北京地区的麦当劳对应的列表页面,最终在当前所述的列表页面中获取麦当劳对应的分类链接,从而获取到“麦当劳”对应的参数值。例本文档来自技高网...
网络数据分类式采集方法及装置

【技术保护点】
网络数据分类式采集方法,其特征在于,该方法包括:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;确定每一个分类参数对应的参数值;根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;针对每一个入口链接,逐个采集相应分类参数所对应的数据。

【技术特征摘要】
1.网络数据分类式采集方法,其特征在于,该方法包括:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;确定每一个分类参数对应的参数值;根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;针对每一个入口链接,逐个采集相应分类参数所对应的数据。2.根据权利要求1所述的方法,其特征在于,所述确定每一个分类参数对应的参数值,包括:确定所述待采集数据所在的目标网站;在所述目标网站中获取所述待采集数据对应的列表页面;在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。3.根据权利要求1所述的方法,其特征在于,所述确定每一个分类参数对应的参数值,包括:获取预先存储的针对所述待采集数据的目标参数列表;根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。4.根据权利要求2所述的方法,其特征在于,所述根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接,包括:分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。5.根据权利要求1-4中任一所述的方法,其特征在于,所述针对每一个入口链接,逐个采集相应分类参数所对应的数据,包括:针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。6.网络数据分类式采集装置,其特征在于,包括:第一确定...

【专利技术属性】
技术研发人员:邢荣王传超徐宏伟
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1