一种网络信息数据分类采集方法技术

技术编号:28035742 阅读:26 留言:0更新日期:2021-04-09 23:17
本发明专利技术公开了一种网络信息数据分类采集方法,包括以下步骤:采集准备:在云服务器内部创建数据库,云服务器的内部运行着信息采集分类软件,信息采集分类软件的信息采集端采用多个网络爬虫,每个网络爬虫对应至少一个分类参数,确定每一个分类参数对应的参数值;搭建链接:先是确定需要采集网络信息数据的类型,然后选择适合采集网络信息数据的网站或网络地址,通过信息采集分类软件与相应的网站;本发明专利技术通过网络爬虫抓取目标网站或网络地址的数据信息,并且事先确定待采集数据的至少一个分类参数,分类进行数据信息采集,每一个分类对应列表页面的内容较少,因此可以利用网络爬虫将列表页面上的数据信息全部采集下来。

【技术实现步骤摘要】
一种网络信息数据分类采集方法
本专利技术涉及网络信息
,具体为一种网络信息数据分类采集方法。
技术介绍
如今大数据时代悄然兴起,网络上充斥着大量的公开信息,而且大型互联网站比比皆是,因此这些网站成为了数据采集工作的重点对象,各种网络信息数据分类采集方法开始出现,但是目前信息数据采集的网站多是大型的互联网站,数据总量过大,目前的网络信息数据分类采集方法无法实现网站信息的全部覆盖,容易造成数据遗漏,为此提出一种网络信息数据分类采集方法,来解决此问题。
技术实现思路
本专利技术的目的在于提供一种网络信息数据分类采集方法,解决了目前信息数据采集的网站多是大型的互联网站,数据总量过大,目前的网络信息数据分类采集方法无法实现网站信息的全部覆盖,容易造成数据遗漏的问题。为实现上述目的,本专利技术提供如下技术方案:一种网络信息数据分类采集方法,包括以下步骤:步骤1:采集准备:在云服务器内部创建数据库,云服务器的内部运行着信息采集分类软件,信息采集分类软件的信息采集端采用多个网络爬虫,每个网络爬虫对应至少一个分类参数,确本文档来自技高网...

【技术保护点】
1.一种网络信息数据分类采集方法,其特征在于:包括以下步骤:/n步骤1:采集准备:在云服务器内部创建数据库,云服务器的内部运行着信息采集分类软件,信息采集分类软件的信息采集端采用多个网络爬虫,每个网络爬虫对应至少一个分类参数,确定每一个分类参数对应的参数值;/n步骤2:搭建链接:先是确定需要采集网络信息数据的类型,然后选择适合采集网络信息数据的网站或网络地址,通过信息采集分类软件与相应的网站、网络地址建立链接,按照数据种类分别设置多个网络爬虫,每个网络爬虫负责一类或两类数据的采集;/n步骤3:数据采集:网络爬虫可以直接进入网站或网络地址的目标列表页面及其分页页面,可以对网络信息进行纵、横双向的...

【技术特征摘要】
1.一种网络信息数据分类采集方法,其特征在于:包括以下步骤:
步骤1:采集准备:在云服务器内部创建数据库,云服务器的内部运行着信息采集分类软件,信息采集分类软件的信息采集端采用多个网络爬虫,每个网络爬虫对应至少一个分类参数,确定每一个分类参数对应的参数值;
步骤2:搭建链接:先是确定需要采集网络信息数据的类型,然后选择适合采集网络信息数据的网站或网络地址,通过信息采集分类软件与相应的网站、网络地址建立链接,按照数据种类分别设置多个网络爬虫,每个网络爬虫负责一类或两类数据的采集;
步骤3:数据采集:网络爬虫可以直接进入网站或网络地址的目标列表页面及其分页页面,可以对网络信息进行纵、横双向的数据与信息抓取,然后将相应的信息数据传输回数据库;
步骤4:分类存储:数据库内部按照分类需要事先划分好各个分类目录,每个网络爬虫传输回的信息数据直接存储在相应分类的目录下,使用者可以按照需要选择合适的分类软件对数据库内部的数据进行再次分类显示输出。


2.根据权利要求1所述的一种网络信息数据分类采集方法,其特征在于:所述在步骤1中,确定每一个分类参数对应的参数值,确定待采集数据所在的目标网站或网络地址;在目标网站或网络地址中获取待采集数据对应的列表页面;在列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。


3.根据权利要求2所述的一种网络信息数据分类采集方法,其特征在于:所述在步骤1中,根据每一个分类参数和对应的参数值...

【专利技术属性】
技术研发人员:李锦基黄永权王勋符伟杰骆新坤李明东
申请(专利权)人:深圳市高德信通信股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1