基于数据节点的并行海量数据处理方法技术

技术编号:10022005 阅读:282 留言:0更新日期:2014-05-09 03:38
本发明专利技术涉及一种基于数据节点的并行海量数据处理方法;本方法通过将海量数据存储到不同数据节点中的数据对象中,所述客户端可以同时通过不同的数据对象进行并行访问,提高了访问效率,实现了大容量、高性能的数据处理服务,并且构建了分布式数据库系统,提供一种利用分布式数据存储技术实现海量数据访问服务,形成基于数据节点的并行海量数据处理方法,本方法还基于IEC61970GID标准和CORBA规范,支持丰富的聚集操作,满足数据处理的功能要求,提高开发效率,节约资源、降低开发和维护成本。

【技术实现步骤摘要】
基于数据节点的并行海量数据处理方法
本专利技术涉及一种基于数据节点的并行海量数据处理方法,属于数据处理

技术介绍
随着计算机技术和现代通信技术的飞速发展,电力系统自动化软件业正在掀起网络化、组件化的浪潮,从厂站侧间隔级的过程总线到主站侧的电力企业集成总线将全面组网和互联,IT流行的公共对象请求代理体系结构(commonobjectrequestbrokerarchitecture,简称CORBA)开始用于电力系统自动化的解决方案,网络化使电力系统自动化软件在分布式环境下分工合作,这种分布式系统往往是一个由不同硬件、不同操作系统、不同支撑环境或不同厂家的产品组成的异构系统,要使其协调工作,各个部分的接口必须标准化,因此,国际电工技术委员会(IEC)负责电力系统控制及其通信的相关标准的第57技术委员会(IECTC57)制定了一系列标准,其中第13工作组(WGl3)负责制定与EMS专业相关的Clbi和CIS标准,其标准系列为IEC61970系列。现在不管是在电力系统领域还是通信领域各种处理的数据都在不断变大,也就是海量数据处理问题,针对这一问题现有技术中也进行了相应的研究,如中国专利技术专利号ZL201010265079.2的《基于文件的海量数据处理方法》公开了一种基于文件海量数据处理模型,所述具体处理过程包括:(1)对多台数据处理服务器间进行互斥控制,保持所述数据处理系统只有一台在处理数据,其他数据处理服务器作为备份;(2)对海量数据文件进行分组,将海量数据文件根据并发线程的总数量进行分组,再将分组后的文件对应到不同的线程进行处理。但是该专利技术以数据库文件存储数据,并且不能进行并行处理,处理数据较慢,电力系统的各种数据庞大又需要及时处理,并且该专利技术没有与电力系统对接标准,因此现在急需一种可以处理海量电力数据的数据处理方法。
技术实现思路
本专利技术所要解决的技术问题是现有技术中海量数据处理较慢,开发效率低的问题,从而提供一种利用分布式数据存储技术实现海量数据访问服务,形成基于数据节点的并行海量数据处理方法。为解决上述技术问题,本专利技术是通过以下技术方案实现的:一种基于数据节点的并行海量数据处理方法,包括以下步骤:将数据信息压缩并封装到数据对象中,所述数据对象对其封装的数据信息进行存储并提供访问接口;将海量数据根据实际的业务需求分为一系列的数据节点,所述数据节点为一组所述数据对象的集合,将需要同时获取的海量数据分别存放到不同的数据节点中,提供并行访问;客户端向总线发送数据访问命令时,所述总线根据请求的数据信息,向包含所需数据信息的数据对象并行的发送访问请求;数据对象调用本身的接口访问其内部存储的数据,进而获取数据或写入数据,最后将结果通过所述总线返回给客户端。所述总线为CORBA的ORB总线。所述访问接口为GID接口,与符合GID标准的配电系统连接。每个所述数据对象对应一个数据库文件,对每个所述数据库文件预先分配存储空间。所述数据库文件分布式存储。所述将需要同时获取的海量数据分别存放到不同的数据节点中的过程,包括根据可预测的数据访问频率的高低和数据量的大小,将访问频率高和数据量大的数据对象分配到不同的数据节点。还包括将每个所述数据对象的历史数据存储到与其对应的数据库文件中的步骤。所述历史数据为所述数据对象存储过的所有数据,是一组可以按照时间查阅的数据序列。本专利技术的上述技术方案相比现有技术具有以下优点:(1)本专利技术所述的基于数据节点的并行海量数据处理方法,包括以下步骤:将数据信息压缩并封装到数据对象中,所述数据对象对其封装的数据信息进行存储并提供访问接口;将海量数据根据实际的业务需求分为一系列的数据节点,所述数据节点为一组所述数据对象的集合,将需要同时获取的海量数据分别存放到不同的数据节点中,提供并行访问;客户端向总线发送数据访问命令时,所述总线根据请求的数据信息,向包含所需数据信息的数据对象并行的发送访问请求;数据对象调用本身的接口访问其内部存储的数据,进而获取数据或写入数据,最后将结果通过所述总线返回给客户端,本方法通过将海量数据存储到不同数据节点中的数据对象中,所述数据对象是本专利技术定义的概念,集数据压缩、存储和访问于一体,也是数据处理的基本单元,所述数据对象可以对海量数据进行分类存储,并可以对多个数据节点中的数据对象进行并行访问,提高了访问效率,实现了大容量、高性能的数据处理服务,解决的技术问题是现有技术中海量数据处理较慢,开发效率低的问题,从而提供一种基于数据节点的并行海量数据处理方法。(2)本专利技术所述的基于数据节点的并行海量数据处理方法,所述总线为CORBA的ORB总线,所述访问接口为GID接口,与符合GID标准的配电系统连接,因此本方法还基于IEC61970GID标准和CORBA规范,支持丰富的聚集操作,满足数据处理的功能要求,提高开发效率,节约资源、降低开发和维护成本。(3)本专利技术所述的基于数据节点的并行海量数据处理方法,每个所述数据对象对应一个数据库文件,对每个数据库文件预先分配存储空间,防止在运行时出现磁盘空间不足等不确定的情况,还可以预防磁盘碎片的产生,保证数据访问性能的稳定和高效。(4)本专利技术所述的基于数据节点的并行海量数据处理方法,所述数据库文件分布式存储,因此构建了分布式的数据库系统,可方便的对重要数据进行备份,避免服务器故障引发的数据丢失或不可查;并且通过海量数据服务,用户就能够读取到所有的数据存储节点的信息,而无需关心数据被存储在哪个网络的哪个服务器中;所述将需要同时获取的海量数据分别存放到不同的数据节点中的过程,包括根据可预测的数据访问频率的高低和数据量的大小,将访问频率高和数据量大的数据对象分配到不同的数据节点,方便并行访问,以此实现负载均衡。(5)本专利技术所述的基于数据节点的并行海量数据处理方法,还包括将每个所述数据对象的历史数据存储到与其对应的数据库文件中的步骤,用户可以调阅之前某时刻的数值,得到该时刻的历史数据。将数据对象的历史数据分别存储到对应数据库文件,可以增加数据访问速度,并方便数据对象的添加、删除、迁移和数据库文件的备份。附图说明为了使本专利技术的内容更容易被清楚的理解,下面结合附图,对本专利技术作进一步详细的说明,其中,图1是本专利技术所述基于数据节点的并行海量数据处理方法的结构示意图;图2是本专利技术所述基于数据节点的并行海量数据处理方法的流程图;图3是本专利技术所述基于数据节点的并行海量数据处理方法的原始数据读取测试图。具体实施方式下面提供本专利技术所述的基于数据节点的并行海量数据处理方法的具体实施方式。实施例1本专利技术所述的基于数据节点的并行海量数据处理方法,如图2所示,其包括以下步骤:将数据信息压缩并封装到数据对象中,所述数据对象集数据压缩、存储和访问于一体,也是数据处理的基本单元,即一个数据对象用于压缩、存储和访问某个测量点的一个监测指标,通过数据对象的读取接口,可以获取该监测指标的所有历史数据,通过数据对象的写入接口,可以存储该监测指标某时刻的值,所述数据对象对其封装的数据信息进行存储并提供访问接口,所述数据对象可以对海量数据进行分类存储,并可以对多个数据节点中的数据对象进行并行访问。将海量数据根据实际的业务需求分为一系列的数据节点,所述数据节点为一组所述数据对象的集合,本文档来自技高网
...
基于数据节点的并行海量数据处理方法

【技术保护点】

【技术特征摘要】
1.一种基于数据节点的并行海量数据处理方法,其特征在于,包括以下步骤:将数据信息压缩并封装到数据对象中,所述数据对象集数据压缩、存储和访问于一体,是数据处理的基本单元,所述数据对象对其封装的数据信息进行存储并提供访问接口,所述数据对象对海量数据进行分类存储,并对多个数据节点中的数据对象进行并行访问,每个所述数据对象对应一个数据库文件,对每个所述数据库文件预先分配存储空间;将海量数据根据实际的业务需求分为一系列的数据节点,包括根据可预测的数据访问频率的高低和数据量的大小,将访问频率高和数据量大的数据对象分配到不同的数据节点,所述数据节点为一组所述数据对象的集合,将需要同时获取的海量数据分别存放到不同的数据节点中,提供并行访问;客户端向总线发送数据访问命令时,所述总线根据请求的...

【专利技术属性】
技术研发人员:张宏伟赵生传王华广崔潇于强牟磊郭英雷李延真蔡键王德东李长林陈明潘新民彭博肖庆维段蕴毅
申请(专利权)人:国网山东省电力公司青岛供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1