动态数据采集装置制造方法及图纸

技术编号:5066218 阅读:165 留言:0更新日期:2012-04-11 18:40
本实用新型专利技术公开了一种动态数据采集装置,属于分布式动态数据采集技术领域。所述装置包括调度管理单元、调度控制单元、采集单元以及发布单元。其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管理单元相连接,用于采集动态数据,并且将采集获取的数据发送给调度管理单元进行处理和存储;并且所述发布单元与调度管理单元相连接,用于发布经调度管理单元过滤和存储后的采集结果。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本技术涉及的是一种面向互联网“暗网”(De印Web)动态数据资源的分布式 采集装置,属于分布式动态采集

技术介绍
对于企业竞争情报领域,用户需要从广泛的互联网领域里寻找对自己有用的或者 不利的信息,而通过普通的搜索引擎很难达到用户的目的,原因之一是搜索引擎分散导致 很难获取完整的数据,二是搜索引擎只能获取静态的网页数据,而不能获得动态数据,也不 能获取通过检索引擎等查询接口的数据,更不能获取企业内部数据或者购买的商业数据, 这些数据都是De印Web数据。而且,静态的网页数据只是占了整个Web数据的很小一部分, 远远不能满足用户的需求。对于学术研究领域,用户希望获取资源的范围越广泛越好,越专业越好。而专业领 域的数据大多是属于Deep Web数据,往往不能通过普通的搜索引擎获取,而是通过自建数 据库、专业的搜索引擎或者购买的商业数据库获取。
技术实现思路
为解决现有技术存在的问题,本技术的目的在于提供一种动态数据采集装 置,能够对采集任务进行动态策略制定,均衡调度、逻辑控制对分布式负载进行采集,从而 获得互联网深层动态数据。本技术所述动态数据采集装置的技术方案如下所述动态数据采集装置,包括调度管理单元、调度控制单元、采集单元以及发布单 元,其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收 需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述 调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任 务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管 理单元相连接,用于采集动态数据;并且所述发布单元与调度管理单元相连接,用于发布经 调度管理单元过滤和存储后的采集结果。其中,所述调度管理单元还包括对采集所需词库进行管理的词库管理子单元、对 采集任务进行配置和管理的调度管理子单元以及用于存储采集结果的存储子单元。进一步,所述词库管理子单元包括词库建立模块、词库补充模块以及检索条件模 块。所述调度管理子单元包括创建任务模块、选择数据来源模块、策略制定与更改模 块以及过滤存储设置模块。并且,所述存储子单元包括索引模块以及主题模块。所述调度控制单元包括分析子单元以及分布式调度控制子单元。优选的,所述调度控制单元是分布式负载均衡调度逻辑控制器;3所述采集单元包括面向TOB资源的自动化采集器以及面向协议资源的自动化采 集器;所述发布单元是采集库发布管理平台。进一步,所述调度管理子单元是采集任务调度管理系统;所述词库管理子单元是采集模拟词库管理系统;所述存储子单元是采集存储调度系统。并且,所述索引子模块是索引数据库模块;所述主题子模块是主题数据库模块。具体来讲,所述动态数据包括动态网页数据、商业数据、开放存储数据以及企业内 部数据。本技术所述动态数据采集装置,能够对采集任务进行动态策略制定,均衡调 度、逻辑控制对分布式负载进行采集,从而获得互联网深层动态数据。附图说明图1是本技术动态数据采集装置的结构示意图;图2是本技术动态数据采集装置的另一种结构示意图;图3是本技术调度管理单元的结构示意图;图4是本技术动态数据采集装置的最佳实施例结构示意图;图5是本技术最佳实施例中创建采集任务的界面图;图6是本技术最佳实施例中选择数据资源的界面图;图7是本技术最佳实施例中制定采集策略的界面图;图8是本技术最佳实施例中采集资源库的程序运行图;图9是本技术最佳实施例中发布采集数据的界面图。具体实施方式本技术提供了一种动态数据采集装置,所述装置与通用搜索引擎的面向静态 网页链接分析机制不同,具有均衡调度、逻辑控制采集互联网深层动态数据的功能,能够根 据用户的检索条件,创建不同的采集任务,制定不同的动态采集策略,实现对动态数据的快 速采集。下面通过具体实施例对所述动态数据采集装置进行说明。如图1所示,本技术所述动态数据采集装置包括调度管理单元、调度控制单 元、采集单元以及发布单元,所述调度管理单元用于输入主题词库或检索条件、创建采集任 务、采集策略,由所述调度控制单元进行分析,并控制所述采集单元进行采集,采集结果通 过调度管理单元进行过滤存储后,通过所述发布单元进行发布。本技术所述装置中,调度管理单元和调度控制单元是核心单元。其中调度管 理单元用于输入主题词库或检索条件、制定动态数据采集任务,对采集到的动态数据进行 过滤和存储。在采集过程中,根据用户需要可以对采集策略进行中止、暂停以及修改。调度 控制单元用于对采集任务及策略进行智能算法分析,并逻辑控制采集单元对分布式负载进 行采集。其次,采集单元用于对分布式服务器系统的动态数据进行采集;发布单元用于对 采集结果进行发布。如图2所示,在所述动态数据采集装置中,调度管理单元进一步包括词库管理子 单元、调度管理子单元以及存储子单元。其中,如图3所示,词库管理子单元包括词库建立 模块、词库补充模块以及检索条件模块,其中词库建立模块用于输入主题词库;所述词库补 充模块用于对主题词库进行补充;所述检索条件模块用于输入检索条件。调度管理子单元 还包括创建任务模块、选择数据来源模块、策略制定与更改模块以及过滤存储设置模块。所 述调度管理子单元具有定制功能,可以根据用户需要创建采集任务、选择数据来源、设置过 滤条件、存储方式以及制定采集策略等,并可以根据调度控制单元的反馈信息进行策略的 更改;存储子单元包括索引模块以及主题模块,用于对采集单元采集的数据信息进行存储。如图2所示,在所述动态数据采集装置中,调度控制单元进一步包括分析子单元 以及分布式调度控制子单元。其中,所述分析子单元用于对调度管理单元制定的各种任务 及策略等进行智能算法分析;分布式调度控制子单元用于根据分析子单元的分析结果,均 衡调度逻辑控制采集单元对分布式负载进行数据采集。概括说来,本技术所述动态数据采集装置的原理如下根据用户输入的主题词库或检索条件生成对应的检索条件,并根据采集任务、数 据来源以及采集策略,对分布式负载进行模拟访问并解析返回的数据信息;根据用户设定 的过滤规则对返回的数据信息进行过滤;过滤后的信息按照用户设定的格式和设置进行存 储,并根据索引设置进行字段索引处理;采集过程中,用户可以对采集策略进行调整,例如 可以调整采集的时间、周期、存储策略,还可以暂停或重启采集的子任务等;最后采集的结 果(包括调度信息)通过发布单元进行发布。综上所述,所述动态数据采集装置通过对分布式负载进行均衡调度以及逻辑控 制,实现了对互联网深层动态数据的采集。下面结合实际,详细说明一下本技术的最佳实施例。本技术最佳实施例中,分布式负载采用分布式服务器数据库系统,并且在动 态数据采集装置安装中已经根据用户需求预先配置好了所有可以进行采集的数据来源列表。如图4所示,本技术最佳实施例采用如下的设置方式调度控制单元是分布式负载均衡调度逻辑控制器,分布式负载均衡调度逻辑控制 器用于基于智能分析算法对采集任务以及调度策略进行分析,并对采集进行均衡调度、逻 辑控制;所述分布式负载均衡调度逻辑控制器可以为多个,分别布置在不同的主机,也可以 进行级别设置,扩展本文档来自技高网...

【技术保护点】
一种动态数据采集装置,其特征在于:包括调度管理单元、调度控制单元、采集单元以及发布单元,其中所述调度管理单元分别与调度控制单元、采集单元以及发布单元相连接,用于接收需要采集的词库或采集的检索条件,创建采集任务和动态采集策略,并存储采集结果;所述调度控制单元分别与调度管理单元和采集单元相连接,用于对调度管理单元创建的采集任务进行分析,并控制所述采集单元进行采集;所述采集单元分别与调度控制单元和调度管理单元相连接,用于采集动态数据,并且将采集获取的数据发送给调度管理单元进行处理和存储;并且所述发布单元与调度管理单元相连接,用于发布经调度管理单元过滤和存储后的采集结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张振海雷华平
申请(专利权)人:同方知网北京技术有限公司
类型:实用新型
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1