一种分布式的多源数据处理方法及系统技术方案

技术编号:24035868 阅读:44 留言:0更新日期:2020-05-07 01:53
本发明专利技术提供了一种分布式的多源数据处理方法及系统,创建数据处理任务,配置数据处理信息;创建数据采集任务,配置数据采集信息;生成相应的数据采集接口规则;对数据流进行监听,判断数据的类型,执行数据采集;对采集得到的数据进行处理,对处理数据进行统一分布式存储。实时监控海量数据流程,并实时反映给用户,提高管理效率。

A distributed multi-source data processing method and system

【技术实现步骤摘要】
一种分布式的多源数据处理方法及系统
本专利技术属于多源数据库领域,具体涉及一种分布式的多源数据处理方法及系统。
技术介绍
随着计算机和网络技术的飞速发展,信息量的增长远远超出了人们对信息获取能力的增长。海量信息资源的有序存储和利用越来越受到世界各国的关注。现实社会里,由其在移动电子商务领域经常存在着对分布式多源海量数据进行查询显示和浏览交易的需求。然而,面对海量级别的数据,我们首先要考虑的问题是如何提高海量数据的操作性能和处理效率。海量数据的数据量庞大,存在数据管理、更新和监控等操作不方便性和高出错率的问题,但是面对如此巨大的数据靠人工检测是不可能的,如果数据处理流程中出现错误,不易查找。不同的系统可以采用不同协议进行数据的采集、交互以及存储等。现有技术中,对于不同系统或应用采用各自共享接口对外提供数据,若协议方式不统一,不利于应用对数据的获取。接口协议有很多种,不同的系统或应用会采用不同的接口协议,在进行数据的交互时,不同接口协议对应的系统不能直接进行数据的交互。这给数据的交互带来极大的不便,尤其在新的接口协议出现时,需要开发人员对数据进行相应的处理,实现数据的交互,降低了数据交互的效率增加了数据,增加了软件开发的工作量。传统的集中采集和存储数据的处理方法,已经不能适应大数据的需求。目前,已经出现了一些工业生产的实时数据库系统,如Wonderware公司的工业SQL,OS1soft公司的PL等。但是,这些实时数据库系统对于一些中小型企业来说太昂贵了。因此,需求一种数据采集和存储的方法,以适应大数据时代的需求,提高不同系统间数据交互的效率。
技术实现思路
为了克服传统数据采集和处理技术在面对分布式海量多源异构数据时的技术瓶颈,本专利技术提出了一种分布式的多源数据处理方法,包括如下步骤:步骤1:根据用户需求,创建数据处理任务,配置数据处理信息;步骤2:根据数据处理信息,创建数据采集任务,配置数据采集信息;步骤3:生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过修改数据采集信息,添加不同类型的数据采集接口信息;步骤4:加载数据采集接口规则,对数据流进行监听,判断数据的类型,执行数据采集;步骤5:根据数据处理任务,对采集得到的数据进行处理,其中,用户可通过修改数据处理信息,对数据处理任务的需求进行调整;步骤6:将处理后的数据按照统一格式进行封装,并进行数据存储,实现对处理数据的统一分布式存储;步骤7:根据需求向用户展示对应的数据处理结果。以及一种分布式的多源数据处理系统,包括:处理创建模块:用于根据用户需求,创建数据处理任务,配置数据处理信息;采集创建模块:用于根据数据处理信息,创建数据采集任务,配置数据采集信息;接口规则模块:用于生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过修改数据采集信息,添加不同类型的数据采集接口信息;采集执行模块:用于加载数据采集接口规则,对数据流进行监听,判断数据的类型,执行数据采集;处理执行模块:根据数据处理任务,对采集得到的数据进行处理,其中,用户可通过修改数据处理信息,对数据处理任务的需求进行调整;封装存储模块:将处理后的数据按照统一格式进行封装,并进行数据存储,实现对处理数据的统一分布式存储;展示模块:根据需求向用户展示对应的数据处理结果。本专利技术的有益效果包括:首先,提高了分布式多源数据的管理和使用水平,将分散的数据资源进行整合优化,降低各部门管理成本和各类应用开发运营复杂度,加快业务应用系统落地速度和随需而变的速度,提高了业务应用系统的可靠性和性能;其次,采集任务模板化,构建了标准化体系,打通了关系数据库、非关系数据库、分布式存储、并行数据库、文本文件存储等不同存储类型的数据采集边界,实现统一的采集任务配置、调度和管控流程;采用多种数据采集安全机制,保证数据采集的完整性和正确性;并且,由于包括驱动模块,数据共享模块,数据寻址模块,数据调度模块,业务处理模块和呈现模块,且数据使用非关系数据库和关系数据库以混合方式来组织,所以本专利技术的方法或系统可以实现实时存储,共享,数据挖掘,大数据量搜索等处理,提高数据查询效率;最后,本专利技术的方法或系统处于分布式即时处理环境,由于在存储不同种类的数据时,非关系数据库和关系数据库都有各自的优势,将数据以混合方式来组织可以最优化数据存储,尤其是在采集数据前又实时处理从非关系数据库发送的数据流并写入到关系数据库中,极大地提高了数据采集效率,以应对大量数据的处理,从而大幅降低建设成本。附图说明图1本专利技术的方法流程图;图2本专利技术的系统框架图。具体实施方式为了更好地理解本专利技术,下面结合附图参考实施例的描述,对本专利技术的方法和系统进行进一步的说明。为了全面理解本专利技术,在以下详细描述中提到了众多具体细节。但是本领域技术人员应该理解,本专利技术可以无需这些具体细节而实现。在实施例中,不详细描述公知的方法、过程、组件,以免不必要地使实施例繁琐。参见图1所示,本专利技术提供了一种分布式的多源数据处理方法,包括如下步骤:步骤1:根据用户需求,创建数据处理任务,配置数据处理信息;步骤2:根据数据处理信息,创建数据采集任务,配置数据采集信息;步骤3:生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过修改数据采集信息,添加不同类型的数据采集接口信息;步骤4:加载数据采集接口规则,对数据流进行监听,判断数据的类型,执行数据采集;步骤5:根据数据处理任务,对采集得到的数据进行处理,其中,用户可通过修改数据处理信息,对数据处理任务的需求进行调整;步骤6:将处理后的数据按照统一格式进行封装,并进行数据存储,实现对处理数据的统一分布式存储;步骤7:根据需求向用户展示对应的数据处理结果。优选地,其中,所述多源数据使用非关系数据库和关系数据库以混合方式进行组织。优选地,其中,所述步骤5:用户可通过修改数据处理信息,具体包括添加、更改、激活、锁定和删除数据处理任务。优选地,其中,方法还包括:多个所述数据处理任务同时进行。优选地,其中,所述步骤6,在存储数据之前,对所述数据进行重复数据删除处理。优选地,其中,所述步骤4:对数据流进行监听,判断数据的类型,执行数据采集,具体包括:监听步骤,监听数据流,判断步骤,判断所述数据流的当前数据类型,选取步骤,根据所述数据类型的不同选取不同的数据采集策略,数据采集步骤,根据选取的数据采集策略,进行数据采集。优选地,其中,所述数据采集步骤进行数据采集具体包括:数据共享步骤,确定数据的路由地址,数据寻址步骤,根据用户需求对应的指令提取路由地址对应的数据,数据调度步骤,根据数据提取请求,指示数据寻址步骤提取相应的数据。优选地,其中,本文档来自技高网
...

【技术保护点】
1.一种分布式的多源数据处理方法,其特征在于,包括如下步骤:/n步骤1:根据用户需求,创建数据处理任务,配置数据处理信息;/n步骤2:根据数据处理信息,创建数据采集任务,配置数据采集信息;/n步骤3:生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过修改数据采集信息,添加不同类型的数据采集接口信息;/n步骤4:加载数据采集接口规则,对数据流进行监听,判断数据的类型,执行数据采集;/n步骤5:根据数据处理任务,对采集得到的数据进行处理,其中,用户可通过修改数据处理信息,对数据处理任务的需求进行调整;/n步骤6:将处理后的数据按照统一格式进行封装,并进行数据存储,实现对处理数据的统一分布式存储;/n步骤7:根据需求向用户展示对应的数据处理结果。/n

【技术特征摘要】
1.一种分布式的多源数据处理方法,其特征在于,包括如下步骤:
步骤1:根据用户需求,创建数据处理任务,配置数据处理信息;
步骤2:根据数据处理信息,创建数据采集任务,配置数据采集信息;
步骤3:生成相应的数据采集接口规则,其中每一个采集任务对应一个数据采集接口,用户通过修改数据采集信息,添加不同类型的数据采集接口信息;
步骤4:加载数据采集接口规则,对数据流进行监听,判断数据的类型,执行数据采集;
步骤5:根据数据处理任务,对采集得到的数据进行处理,其中,用户可通过修改数据处理信息,对数据处理任务的需求进行调整;
步骤6:将处理后的数据按照统一格式进行封装,并进行数据存储,实现对处理数据的统一分布式存储;
步骤7:根据需求向用户展示对应的数据处理结果。


2.根据权利要求1所述的一种分布式的多源数据处理方法,其中,所述多源数据使用非关系数据库和关系数据库以混合方式进行组织。


3.根据权利要求1所述的一种分布式的多源数据处理方法,其中,所述步骤5:用户可通过修改数据处理信息,具体包括添加、更改、激活、锁定和删除数据处理任务。


4.根据权利要求1所述的一种分布式的多源数据处理方法,其中,方法还包括:多个所述数据处理任务同时进行。


5.根据权利要求1所述的一种分布式的多源数据处理方法,其中,所述步骤6,在存储数据之前,对所述数据进行重复数据删除处理。


...

【专利技术属性】
技术研发人员:刘鹏邓春宇杨国生王文焕马建杰
申请(专利权)人:中国电力科学研究院有限公司国家电网有限公司国网江苏省电力有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1