The invention relates to the technical field of computer application, in particular to a network resource data acquisition system and a method for realizing the same. The system of the invention is composed of four parts: the resource configuration management module, the task configuration management module, the data management module and the monitoring management module. The method comprises the following steps: adding the resource information in the database configuration; network acquisition rules; to test collection rules; release resource allocation information; add task information, select the name of the resource set operation cycle and task running time; start the task to run. The invention can create a data acquisition network resources fast implementation of enterprise unit staff, flexible configuration task acquisition time and operation cycle, monitor and query of the collected data, is suitable for realizing enterprises all kinds of cyber source data acquisition.
【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别是涉及一种网络资源数据采集系统及其实现方法。
技术介绍
Web是一个巨大的资源宝库,目前页面数目已超过2000亿,每小时还以惊人的速度在稳步增长,里面有你需要的大量有价值的信息,例如政府公告内容信息,国民经济数据信息,金融信息,社交信息,消费信息等等,可是由于这些关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用,也无法满足数据的整合和共享。
技术实现思路
本专利技术解决的技术问题之一在于提供一种网络资源数据采集系统,实现网络资源采集配置管理,实现对网络资源采集内容规则的维护和管理,实现对网络资源数据采集的系统化管理。本专利技术解决的技术问题之二在于提供一种网络资源数据采集方法,实现对网络数据资源的分布式高速采集,多个任务同时运行,保证了采集数据的准确性和时效性。本专利技术解决上述第一个技术问题的技术方案是:所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息的发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息的发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护和任务的启动、停止和重启功能;所述的 ...
【技术保护点】
一种网络资源数据采集系统,其特征在于,所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;所述的任务基础信息维护模块用于保存和修改任务基础信息表;所述的任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容 ...
【技术特征摘要】
1.一种网络资源数据采集系统,其特征在于,所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;所述的任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;所述的任务基础信息维护模块用于保存和修改任务基础信息表;所述的任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容结果集信息;所述的监控管理模块包含资源监控管理和任务监控管理;所述的资源监控管理用于对资源信息进行监控,包含资源名称、监控时间、监控URL、监控值、监控结果信息;所述的任务监控管理用于对任务运行进行监控,包含任务名称、开始时间、结束时间、采集网页数信息。2.根据权利要求1所述的一种网络资源数据采集的系统,其特征在于,所述的资源基础信息表包含:资源编号,资源名称,数据表名称,关键字,总标记,类别,原网页名称,原网页URL,标题标记,链接标记,日期标记,内容标题标记,时间标记,内容标记,作者标记,自定义标记,来源标记,备注,数据记录,状态信息;所述的任务基础信息表包含:任务编号,任务名称,资源编号,开始时间,结束时间,是否循环,任务周期,下次启动时间,状态信息;所述的资源采集信息表,包含:资源采集编号,任务编号,类型,标题,时间,作者,来源,内容标题,采集URL,上层URL,内容,关键词,采集时间,状态,备注,资源编号;所述的资源监控信息表,包含:资源监控编号,资源编号,监控URL,监控值,监控时间,状态,备注;所述的任务监控信息表,包含:任务监控编号,任务编号,开始时间,...
【专利技术属性】
技术研发人员:陈德淼,季统凯,
申请(专利权)人:国云科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。