一种可配置的网页数据采集的方法及系统技术方案

技术编号:11182961 阅读:61 留言:0更新日期:2015-03-25 12:08
本发明专利技术涉及一种可配置的网页数据采集的方法及系统,特别适用于需要不断更新对网页数据的采集方式的情况,该方法包括:S1、从数据库中获取网页数据采集的配置信息;S2、根据配置信息,获取所需的分类网站并登陆;S3、根据登录后的网站信息,获取网站下所需要采集的主题;S4、根据配置信息,采集到的主题,采集所需的网页内容;S5、根据配置的数据表,通过配置的数据表中正则表达式或者一定的规则提取采集内容页的所需信息;S6、将提取出的表格数据存储到数据库中。实施本发明专利技术的可配置的网页数据采集的方法及系统,用户可自行任意配置需要采集的网页数据,通过配置好的采集方案采集全网的相关的数据信息,实现灵活、方便地网页数据采集。

【技术实现步骤摘要】

本专利技术涉及网络通信
,更具体地说,涉及一种用于实现不断更新对网页数据的采集方式的情况的可配置的网页数据采集的方法及系统
技术介绍
随着Web技术及Web应用的高速发展,大数据时代的来临,对各种Web应用网站,特别社交平台的监控、各个公司的舆论监控、用户数据采集、大数据挖掘的应用越来越广泛;各行各业也越来越依赖互联网并对互联网信息高度依赖。但是,互联网的数据都是海量的,那么怎么去提取出我们需要的数据呢?目前市场上只有针对某一网站或几个网站的采集系统,并没有可配置的、指定特定数据的网页数据采集方法。网页排版设计既可以采用Table方式也可以采用DIV方式或者两者混合排版,所以在采集数据的时候会出现采集错误或异常;采集的网站改版后需要重新开发程序,增加开发成本。这就需要我们去开发个系统采集这些数据,而各个网站又是各有各的设计及展现方式,不能用同一个种解析方式采集所有的网站,为避免针对每个网站做个解析方法及网站改版需要修改程序,很有必要需要开发一种通用的、可配置的网页数据采集系统。
技术实现思路
本专利技术所要解决的技术问题是,针对现有的网页数据采集系统只能采集一个或几个网站,具有单一性和实用性不强的缺陷,提供一种可配置,运用范围广泛的可配置的网页数据采集的方法及系统。本专利技术解决上述技术问题的技术方案如下:一种可配置的网页数据采集的方法,该方法包括:S1、从数据库中获取网页数据采集的配置信息,该配置信息包括:配置采集网站的分类信息,配置采集主题模板信息,配置采集内容页模板信息和配置数据表信息;S2、根据配置采集网站的分类信息,判断是否启用采集网站的分类,如果是则启用采集网站的分类,获取分类网站,否则结束程序;S3、根据配置采集网站的分类信息,判断是否登录采集到的分类网站,如果是则登陆该分类网站,否则将采用虚拟登录网页登陆该分类网站;S4、根据配置采集主题模板信息,获取网站下所需要采集的主题;S5、根据采集的主题,判断该主题的内容是否存在多页面情况,如果是则根据分页标志获取网址列表信息,否则直接获取该主题的内容页;S6、根据内容页的开始标志和结束标志截取采集内容,并根据表达式获取内容页的网址集合;S7、根据配置的采集内容页模板信息,获取采集的内容页;S8、根据采集的内容页,判断其是否存在多页面情况,如果是则根据分页标志获取多页面的网址列表信息,然后根据内容页的开始标志和结束标志截取内容,否则直接根据开始标志和结束标志截取内容页的内容;S9、根据配置的数据表信息获取字段对应的表达式或者相关规则提取表格数据;S10、将提取出的表格数据存储到数据库中。在本专利技术所述的可配置的网页数据采集的方法中,所述采集属性信息包括:采集网址、采集网站编码和采集频率。所述采集网址,用于采集符合配置的网页地址;所述采集网站编码,用于采集网站的源代码;所述采集频率设置为每5分钟一次。在本专利技术所述的可配置的网页数据采集的方法中,所述数据表信息包括:采集标题、采集时间、采集内容以及采集内容的来源。采集标题,用于采集内容页的标题名称;采集内容,用于采集内容页的内容;采集内容的来源,用于采集内容页的内容来源的信息。在本专利技术所述的可配置的网页数据采集的方法中,所述步骤S1的配置信息的配置步骤包括:a、配置采集网站的分类以及采集属性信息;b、配置采集主题模板信息;c、配置采集内容页模板信息;d、存储配置信息至数据库中,方便以后调取使用。构造一种可配置的网页数据采集的系统,包括:启动模块、调取配置模块、判断模块、获取配置信息模块、数据库、截取内容模块和存储模块;所述数据库,用于存储配置信息及表格数据;所述获取配置信息模块,用于配置用户所需采集的网页数据;所述获取配置信息模块包括获取网站模块、获取网站主题模块、获取内容页模块和获取表格数据模块,其中,所述获取网站模块,用于获取用户所需的分类网站;所述获取网站主题模块,用于获取分类网站中用户所需的主题;所述获取内容页模块,用于获取主题中用户所需的内容页;获取表格数据模块,用于获取内容页中表格数据。所述判断模块包括:第一判断模块、第二判断模块、第三判断模块和第四判断模块;所述截取内容模块包括:第一截取内容模块和第二截取内容模块;所述获取配置信息模块包括:获取网站模块、获取网站主题模块、获取内容页模块和获取表格数据模块。启动模块,用于启动可配置的网页数据采集系统;调取配置模块,用于从数据库中调取所需采集的相应配置信息;第一判断模块,用于判断是否配置采集网站的分类以及采集属性的功能,判断是否启用采集网站的分类,如果是则启用采集网站的分类,获取分类网站,否则结束程序;第二判断模块,用于判断是否登录采集到的分类网站,如果是则登陆该网站,否则将采用虚拟登录网页登陆该分类网站;获取网站主题模块,用于根据配置的网站主题模板信息,获取登陆分类网站的所需的主题;第三判断模块,用于判断该主题内容是否存在多页面情况,如果是则根据分页标志获取多页面的网址列表信息,通过该列表信息获取多页面的内容页,否则直接获取该主题的内容页;第一截取内容模块,用于通过内容页的开始标志和结束标志截取内容信息;获取采集内容页模块,用于根据配置的采集内容页信息,从网站的主题模块中获取所需的内容页;第四判断模块,用于判断其是否存在多页面情况,如果是则根据分页标志获取多页面的网址列表信息,然后根据开始标志和结束标志截取内容页的内容,否则直接根据开始标志和结束标志截取内容页的内容;第二截取内容模块,用于通过网页内容页的开始标志和结束标志截取内容信息;提取表格数据模块,用于根据配置的采集数据表信息,提取字段对应的表达式或者规则获取表格数据;存储模块,用于将提取出的数据存储到数据库中。在本专利技术所述的可配置的网页数据采集的系统中,所述获取网站模块在执行之前先进行是否启用和登陆网站的判断,如果是则进行获取网站主题和内容页的模块,否则将结束进程。在本专利技术所述的可配置的网页数据采集的系统中,所述第四判断模块若遇到多页面情况,分页采集内容时采用数据循环合并的方式采集数据。实施本专利技术的可配置的网页数据采集的方法及系统,具有以下有益效果:用户可自行任意配置需要采集的网页数据信息及条件,通过配置好的采集本文档来自技高网...

【技术保护点】
一种可配置的网页数据采集的方法,其特征在于,该方法包括:S1、从数据库中获取网页数据采集的配置信息,该配置信息包括:配置采集网站的分类信息,配置采集主题模板信息,配置采集内容页模板信息和配置数据表信息;S2、根据配置采集网站的分类信息,获取所需采集的分类网站;S3、根据配置采集主题模板信息,在采集的分类网站中获取所需采集的主题;S4、根据配置采集内容页模板信息,从采集的主题获取所需采集的内容页;S5、根据配置数据表信息,获取字段对应的表达式或者相关规则,从采集的内容页中提取表格数据;S6、将提取的表格数据存储到数据库中。

【技术特征摘要】
1.一种可配置的网页数据采集的方法,其特征在于,该方法包括:
S1、从数据库中获取网页数据采集的配置信息,该配置信息包括:配置
采集网站的分类信息,配置采集主题模板信息,配置采集内容页模板信息和
配置数据表信息;
S2、根据配置采集网站的分类信息,获取所需采集的分类网站;
S3、根据配置采集主题模板信息,在采集的分类网站中获取所需采集的
主题;
S4、根据配置采集内容页模板信息,从采集的主题获取所需采集的内容
页;
S5、根据配置数据表信息,获取字段对应的表达式或者相关规则,从采
集的内容页中提取表格数据;
S6、将提取的表格数据存储到数据库中。
2.根据权利要求1所述的可配置的网页数据采集的方法,其特征在于,
所述步骤S2之后,将判断是否登录采集到的分类网站,如果是则登陆该分
类网站,否则将采用虚拟登录网页登陆该分类网站。
3.根据权利要求1所述的可配置的网页数据采集的方法,其特征在于,
根据所述步骤S3中所获取的主题,判断该主题是否存在多页面情况,如果
是则根据分页标志获取多页面网址的列表信息,通过该列表信息获取多页面

\t的内容页,否则直接获取内容页。
4.根据权利要求1所述的可配置的网页数据采集的方法,其特征在于,
根据所述步骤S4中所获取的内容页,判断其是否存在多页面情况,如果是
则根据分页标志获取多页面的网址列表信息以及所述内容页的开始标志和
结束标志,截取内容页的内容,否则直接根据内容页的开始标志和结束标志,
截取内容页的内容。
5.根据权利要求1所述的可配置的网页数据采集的方法,其特征...

【专利技术属性】
技术研发人员:吴正辉
申请(专利权)人:深圳联友科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1