【技术实现步骤摘要】
本专利技术涉及数据处理,具体为一种基于分布式的文件采集方法及系统。
技术介绍
1、文件采集是通过编排拓扑结构进行设置的,通过拖拽的方式实现不同任务节点之间依赖关系和执行顺序的拓扑结构,合理的任务编排,确定节点之间的先后执行顺序,确保文件采集任务能够按照依赖关系正确的完成。
2、现有技术中,分布式技术是指在多个组件或者节点在不同的物理或者逻辑位置上运行,通过网络协作共同完成一项任务工作,在分布式采集方法中,各节点之间可以通过redis缓存进行消息传递、数据共享和协同操作。相比于传统的文件采集方法,基于分布式的采集方法具有更高的可扩展性、可靠性和容错性。
3、但是,传统文件采集具有局限性,只能程序和文件服务器之间实现一对一文件采集,具有cpu和内存无法均衡利用的问题,且无法弹性伸缩和平行扩展。
技术实现思路
1、本专利技术的目的在于提供一种基于分布式的文件采集方法及系统,基于redis消息通信为介质,利用负载均衡技术,将采集任务合理的分散到服务器节点,保证文件采集的效率
...【技术保护点】
1.一种基于分布式的文件采集方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述任务编排拓扑的具体操作包括:
3.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述定时调度的具体操作包括:
4.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述利用负载均衡算法进行任务分发的具体操作包括:
5.一种根据权利要求1-4任意一项所述的基于分布式的文件采集方法的基于分布式的文件采集系统,其特征在于:所述系统由任务编排模块、定时调度模块以及
...【技术特征摘要】
1.一种基于分布式的文件采集方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述任务编排拓扑的具体操作包括:
3.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述定时调度的具体操作包括:
4.根据权利要求1所述的一种基于分布式的文件采集方法,其特征在于:所述利用负载均衡算法进行任务分发的具体操作包括:
5.一种根据权利要求1-4任意一项所述的基于分布式的文件采集方法的基于分布式的文件采集系统,其特征在于:所述系统由任务编排模块、定时调度模块以及任务分发模块;
6.根据权利要求5所述的一种基于分布式的文件采集系统,其特征在于:所述任务编排模块,将具有依赖关系的采集节点按照特定的拓扑结构进行组织和调度;拓扑节点分为,开始、数据源、文件解析、入库、结束,拓扑节点之间组成有向无环图,顺序执行,前一个节点执行完成后才执行下一个节点。
7.根据权利要求5所述的一种基于分布式的文件采集系统,其特征在于:所述定时调度模块,1)在mysql中维护主机信息serverlist,并设置主机状态为启用;2)a部分定义的三类节点:数据源、文件解析、入库;分别赋予变量idst_stage_ftpdl_${serv...
【专利技术属性】
技术研发人员:贾云强,李庆忠,姜仁雨,
申请(专利权)人:浪潮通信信息系统天津有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。