一种网络资源数据采集系统及其实现方法技术方案

技术编号:15237746 阅读:167 留言:0更新日期:2017-04-29 00:34
本发明专利技术涉及计算机应用技术领域,特别是涉及一种网络资源数据采集的系统及其实现方法。本发明专利技术的系统由资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块四部分组成。所述的方法包括如下步骤:在系统数据库中添加资源信息;配置网络采集规则;对采集规则进行测试;发布资源配置信息;添加任务信息,选择资源名称,设定任务运行周期及任务开始运行时间;启动任务运行即可。本发明专利技术可实现企业单位工作人员快速创建一个网络数据采集资源,灵活配置任务采集时间及运行周期,对采集的数据进行监控和查询,适用于企业单位各种网络资源数据采集的实现。

Network resource data acquisition system and implementing method thereof

The invention relates to the technical field of computer application, in particular to a network resource data acquisition system and a method for realizing the same. The system of the invention is composed of four parts: the resource configuration management module, the task configuration management module, the data management module and the monitoring management module. The method comprises the following steps: adding the resource information in the database configuration; network acquisition rules; to test collection rules; release resource allocation information; add task information, select the name of the resource set operation cycle and task running time; start the task to run. The invention can create a data acquisition network resources fast implementation of enterprise unit staff, flexible configuration task acquisition time and operation cycle, monitor and query of the collected data, is suitable for realizing enterprises all kinds of cyber source data acquisition.

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别是涉及一种网络资源数据采集系统及其实现方法
技术介绍
Web是一个巨大的资源宝库,目前页面数目已超过2000亿,每小时还以惊人的速度在稳步增长,里面有你需要的大量有价值的信息,例如政府公告内容信息,国民经济数据信息,金融信息,社交信息,消费信息等等,可是由于这些关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用,也无法满足数据的整合和共享。
技术实现思路
本专利技术解决的技术问题之一在于提供一种网络资源数据采集系统,实现网络资源采集配置管理,实现对网络资源采集内容规则的维护和管理,实现对网络资源数据采集的系统化管理。本专利技术解决的技术问题之二在于提供一种网络资源数据采集方法,实现对网络数据资源的分布式高速采集,多个任务同时运行,保证了采集数据的准确性和时效性。本专利技术解决上述第一个技术问题的技术方案是:所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息的发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息的发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护和任务的启动、停止和重启功能;所述的任务基础信息维护用于保存和修改任务基础信息表;所述的任务的启动、停止和重启功能分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示第个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容结果集信息;所述的监控管理模块包含资源监控管理和任务监控管理;所述的资源监控管理用于对资源信息进行监控,包含资源名称、监控时间、监控URL、监控值、监控结果等信息;所述的任务监控管理用于对任务运行进行监控,包含任务名称、开始时间、结束时间、采集网页数等信息。所述的资源基础信息表,包含:资源编号,资源名称,数据表名称,关键字,总标记,类别,原网页名称,原网页URL,标题标记,链接标记,日期标记,内容标题标记,时间标记,内容标记,作者标记,自定义标记,来源标记,备注,数据记录,状态信息;所述的任务基础信息表,包含:任务编号,任务名称,资源编号,开始时间,结束时间,是否循环,任务周期,下次启动时间,状态信息;所述的资源数据采集信息表,包含:资源采集编号,任务编号,类型,标题,时间,作者,来源,内容标题,采集URL,上层URL,内容,关键词,采集时间,状态,备注,资源编号;所述的资源监控信息表,包含:资源监控编号,资源编号,监控URL,监控值,监控时间,状态,备注;所述的任务监控信息表,包含:任务监控编号,任务编号,开始时间,结束时间,状态,采集网页数量。本专利技术解决上述第二个技术问题的技术方案是:所述的方法包括:步骤1:在系统数据库中添加资源基础信息,配置采集规则,发布资源信息;步骤2:添加任务信息,选择资源名称,设定任务运行周期及任务开始运行时间,启动任务运行即可。所述的网络资源数据采集实现方法包括资源配置管理维护、任务配置管理维护和数据查询管理及监控管理。所述的资源配置管理维护包括如下步骤:第一步,添加资源基础信息表,包含资源名称和数据表名称等信息;第二步,配置资源采集信息,包含采集网址、采集规则和采集内容等信息;第三步,测试网址采集内容;第四步,提交资源信息,自动生成资源采集信息表;第五步,发布资源信息。所述的任务配置管理维护包括如下步骤:第一步,添加任务基础信息表,包含任务名称、资源名称、是否循环、任务周期、开始时间等信息;第二步,启动任务运行;第三步,在任务设定的开始运行时间进行数据采集。所述的数据查询管理包括如下步骤:第一步,数据导航,展示所有资源的信息采集数量;第二步,数据浏览,浏览每个资源的详细采集数据;第三步,统一搜索,输入检索信息关键字,点查询,显示信息采集结果集信息。所述的监控管理包括如下步骤:第一步,资源监控,对资源信息进行监控,展示资源的监控时间,监控URL,监控值和监控结果;第二步,任务监控,对任务信息进行监控,展示任务的开始时间,结束时间,采集网页数量。网络资源数据采集的详细流程为:第一步,添加资源基础信息表,包含资源名称和数据表名称等信息;第二步,配置资源采集信息,包含采集网址、采集规则和采集内容等信息;第三步,测试网址采集内容;第四步,提交资源信息,自动生成资源采集信息表;第五步,发布资源信息;第六步,添加任务基础信息表,包含任务名称、资源名称、是否循环、任务周期、开始时间等信息;第七步,启动任务运行;第八步,数据采集;第九步,数据导航,展示所有资源的信息采集数量;第十步,数据浏览,浏览每个资源的详细采集数据;第十一步,统一搜索,输入检索信息关键字,点查询,显示信息采集结果集信息;第十二步,资源监控,对资源信息进行监控,展示资源的监控时间,监控URL,监控值和监控结果;第十三步,任务监控,对任务信息进行监控,展示任务的开始时间,结束时间,采集网页数量。本专利技术方案的有益效果如下:本专利技术的系统提供网络资源数据采集管理数据库,实现了网络资源数据采集的系统化管理,实现了网络资源数据采集的灵活性。本专利技术的方法可灵活配置任务运行的开始时间,任务运行周期,灵活启动和停止任务执行,并对任务运行进行实时监控,实现了网络资源数据采集的准确性和时效性。附图说明下面结合附图对本专利技术进一步说明:图1是本专利技术的系统架构示意图;图2是本专利技术的网络资源数据采集流程图;图3是本专利技术的基本数据表。具体实施方式如图1所示,本专利技术在系统数据库中添加资源信息;配置网络采集规则;对采集规则进行测试;发布资源配置信息;添加任务信息,选择资源名称,设定任务运行周期及任务开始运行时间;启动任务运行即可。本专利技术的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;资源规则测试模块用于对配置的采集规则进行测试;资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表。任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;任务基础信息维护模块用于保存和修改任务基础信息表;任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表。数据管理模块包含数据浏览和统一搜索;数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和本文档来自技高网...

【技术保护点】
一种网络资源数据采集系统,其特征在于,所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;所述的任务基础信息维护模块用于保存和修改任务基础信息表;所述的任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容结果集信息;所述的监控管理模块包含资源监控管理和任务监控管理;所述的资源监控管理用于对资源信息进行监控,包含资源名称、监控时间、监控URL、监控值、监控结果信息;所述的任务监控管理用于对任务运行进行监控,包含任务名称、开始时间、结束时间、采集网页数信息。...

【技术特征摘要】
1.一种网络资源数据采集系统,其特征在于,所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;所述的任务基础信息维护模块用于保存和修改任务基础信息表;所述的任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容结果集信息;所述的监控管理模块包含资源监控管理和任务监控管理;所述的资源监控管理用于对资源信息进行监控,包含资源名称、监控时间、监控URL、监控值、监控结果信息;所述的任务监控管理用于对任务运行进行监控,包含任务名称、开始时间、结束时间、采集网页数信息。2.根据权利要求1所述的一种网络资源数据采集的系统,其特征在于,所述的资源基础信息表包含:资源编号,资源名称,数据表名称,关键字,总标记,类别,原网页名称,原网页URL,标题标记,链接标记,日期标记,内容标题标记,时间标记,内容标记,作者标记,自定义标记,来源标记,备注,数据记录,状态信息;所述的任务基础信息表包含:任务编号,任务名称,资源编号,开始时间,结束时间,是否循环,任务周期,下次启动时间,状态信息;所述的资源采集信息表,包含:资源采集编号,任务编号,类型,标题,时间,作者,来源,内容标题,采集URL,上层URL,内容,关键词,采集时间,状态,备注,资源编号;所述的资源监控信息表,包含:资源监控编号,资源编号,监控URL,监控值,监控时间,状态,备注;所述的任务监控信息表,包含:任务监控编号,任务编号,开始时间,...

【专利技术属性】
技术研发人员:陈德淼季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1