一种大数据迁移的方法及系统技术方案

技术编号:17796852 阅读:40 留言:0更新日期:2018-04-25 20:21
本发明专利技术涉及一种大数据迁移的方法,包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。

A method and system for large data migration

The invention relates to a method of large data migration, which includes the following steps: S1. establishes a proxy program for a specified legacy file system in a specified legacy system that can read or write data from a legacy file system or read or write data; S2. is based on step S1, the agent read out the yuan. The data is imported into the large data file system, and based on the metadata, the legacy file system stubs are established and stored in the large data file system compatible with the large data file system. The S3. large data file system reads / writes data from the legacy file system from the legacy file system through the proxy program. The result of data read and write will be returned to the initiator of external data I/O.

【技术实现步骤摘要】
一种大数据迁移的方法及系统
本专利技术涉及及大数据的
,特别涉及一种大数据迁移的方法及系统。
技术介绍
目前,大数据作为数据爆炸的结果,其内在隐藏的价值和挑战已经越来越被业界所认识。所谓“大数据”包含以下四个层面的含义:第一、数据体量巨大,从TB级别跃升到PB级别;第二、数据类型繁多,主要包括网络日志、视频、图片、地理位置信息等等;第三、价值密度低,以视频为例,在连续不间断地监控过程中,可能有用的视频只有一两秒钟;第四、处理速度快,1秒定律。尤其,第四点处理速度快与传统的数据挖掘技术有着本质的不同。对大数据进行分析,进而从中挖掘出有价值的商业信息已经成为企业未来核心竞争力之一。大数据分析主要包括大规模结构化数据分析和非结构化数据(包含半结构化数据)分析,其目前的解决方案是通过使用MapReduce框架对大规模非结构化数据处理,将处理结果导入到数据仓库,进而使用商业智能或者数据预测分析等方法及工具,挖掘数据内在的价值。鉴于基于数据仓库及商业智能软件大规模结构化数据的分析技术及工具已经很成熟。以文件为主体的非结构化数据以远远超过结构化数据的速度增长,成为了大数据的主要来源,也成为了大数据分析面临的主要挑战。对大规模非结构化数据的分析是大数据分析需要解决的主要问题,所谓大规模非结构化数据分析,就是需要把从各个分散的异构的系统中产生的数据,聚合(迁移)到一个大数据文件系统;进一步地,使用MapReduce框架对存储在该文件系统上的数据进行处理,将处理结果导入到相应的大规模结构化数据分析套件中。大数据文件系统,主要指的是服务于非结构化大数据分析的文件系统,典型的实现包括横向拓展直连存储(Scale-outDAS,如HadoopHDFS、GoogleGFS(GoogleFileSystem))和横向拓展网络连接存储(Scale-outNAS)。由于MapReduce框架已经发展的比较成熟,因此大规模非结构化数据分析所需要解决的主要问题在于:如何聚合和迁移大数据,聚合和迁移大数据需要应对的挑战主要包括:1.存储的分散性和访问的透明性企业的大数据通常产生于各个分散的业务系统,比如ERP、财务系统、客户关系管理系统等等,出于数据安全性的考虑(因为这些数据的访问通常是有不同访问权限的,比如财务系统产生的数据只能授权给财务人员或者企业高级管理人员访问),这些数据很难被聚合在一起,进行处理和分析;如果采用streaming的技术(如IBMstreams等流数据处理技术),这种技术的一个特点是将各个分散异构平台上的数据单独处理,然后将处理结果集中,做进一步处理。但是,streaming技术的应用将使各个异构平台上的数据不能够被透明访问(如授权访问),大大地限制了大数据分析工具的使用范畴和数据处理的方法。2.产生和保存数据的遗留系统的异构性通常情况下,企业的数据产生于各个异构的遗留系统,这些遗留系统中运行着不同的应用程序为企业各种业务提供支持,其依赖的硬件平台(如存储系统、CPU指令集等)和文件系统(如ZFS、ext4等)往往也异构。这种由于历史原因导致的遗留系统的异构性,使大数据的迁移和聚合变得非常复杂。3.数据迁移和聚合的延迟性如上所述,企业的大数据通常产生于各个异构平台,而目前主流大数据分析方法体系需要将数据迁移、聚合之后,而后才能作分析(特别是各个数据源产生数据的交叉分析)。考虑到通常情况下,需要迁移的待分析数据量巨大,这种方法体系下数据分析的价值回报周期将被极大地延长。为了应对以上挑战,目前非结构化大数据聚合和迁移的解决方案主要包括:1.横向扩展直连存储(Scale-outDAS)和相应的数据连接装置(例如ApacheChukwa、Pentaho等解决方案)。以Hadoop文件系统(HDFS)为例,其实现是一个典型的横向扩展直连存储,为了使其他异构遗留文件系统和平台数据聚合到HDFS中,需要建立一个Hadoop文件系统与遗留文件系统和平台的数据连接装置,如Pentaho的数据连接装置,该装置可以将遗留文件系统和平台中的数据导入到Hadoop文件系统中,供MapReduce等非结构化大数据分析工具套件使用。该方案在应用到非结构化大数据分析的场景中,需要将大量数据迁移到Hadoop文件系统中后才可以进行分析,这种延迟极大地增加了大数据分析的价值回报周期。另外,这种方案无法消除大数据聚合(通过导入的方式)导致的企业数据安全性的顾虑——至少该存储系统的超级管理员有权限访问所有数据,使得企业数据的访问不可控,大大增加了数据泄露的风险,不符合企业数据安全性的需要。2.横向拓展网络连接存储(Scale-outNAS),如EMCIsilon。该存储平台提供标准的NFS、CIFS的数据访问协议,使之成为生产环境的存储平台,进而通过提供一个内嵌的非结构化大数据文件系统(例如HDFS)访问协议的接口,使非结构化大数据分析套件(例如MapReduce)等可以无缝地访问存储在其上的数据。该方案可以在一定条件下(例如已经部署了该存储平台的情况下),使非结构化大数据不必移动就可以用来分析,但是实际的情况是,并不是企业所有生产环境都适合把数据放置到NAS上,这样就会面临和横向扩展直连存储方案同样的问题,即大数据迁移的延迟将极大地延长大数据分析的价值回报周期。同时,它也无法解决数据安全性的问题。3.数据流技术,如IBMStreams,HStreaming的解决方案。综上所述,目前非结构化大数据聚合和存储解决方案无法解决大数据聚合过程中因迁移导致的延迟性和数据安全性的问题。
技术实现思路
本专利技术为解决上述的一种或多种不足,提供一种大数据迁移的方法及系统。为解决上述技术问题,本专利技术采用的技术方案是:一种大数据迁移的方法,包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。优选的,所述的步骤S1的具体如下:S11.用于分析的数据产生于各个分散的异构遗留系统,且保存在各个异构的遗留文件系统中;S12.为了确保数据安全,屏蔽大数据文件系统中客户端和服务器端对这些数据的直接访问;S13.在每个遗留系统中为每个指定的遗留文件系统建立一个代理程序,该代理程序可以从其对应的遗留文件系统中读出需要的元数据和数据。优选的,所述的步骤S2的具体如下:S21.将指定遗留系统中指定的遗留文件系统对应的代理程序读出的元数据导入到大数据文件系统中;S22.大数据文件系统中为遗留文件系统存根建立一个命名空间;将导入的遗留文件系统中的文件和目录按照预置的顺序放置在大数据文件系统元数据中所述命名空间之下;S23.按照大数据文件系统兼容格式建立且保存对应遗留文件系统中的文件和目录;根据导入的遗留文件系统元数据信息,按照大数据文件系统兼容格式建立且保存它们的元数据信息。所述的步骤S2根据系统实现的需要,本文档来自技高网
...
一种大数据迁移的方法及系统

【技术保护点】
一种大数据迁移的方法,其特征在于:包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。

【技术特征摘要】
1.一种大数据迁移的方法,其特征在于:包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。2.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S1的具体如下:S11.用于分析的数据产生于各个分散的异构遗留系统,且保存在各个异构的遗留文件系统中;S12.为了确保数据安全,屏蔽大数据文件系统中客户端和服务器端对这些数据的直接访问;S13.在每个遗留系统中为每个指定的遗留文件系统建立一个代理程序,该代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据。3.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S2的具体如下:S21.将指定遗留系统中指定的遗留文件系统对应的代理程序读出的元数据导入到大数据文件系统中;S22.大数据文件系统中为遗留文件系统存根建立一个命名空间;将导入的遗留文件系统中的文件和目录按照预置的顺序放置在大数据文件系统元数据中所述命名空间之下;S23.按照大数据文件系统兼容格式建立且保存对应遗留文件系统中的文件和目录;根据导入的遗留文件系统元数据信息,按照大数据文件系统兼容格式建立且保存它们的元数据信息。所述的步骤S2根据系统实现的需要,用于建立遗留文件系统存根的元数据信息的传输可以有不同的实现方式。4.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S3的具体如下:S31.I/O读写请求到达大数据文件系统中的指定遗留文件系统存根的...

【专利技术属性】
技术研发人员:苏卓李伟坚施展姜文婷吴赞红
申请(专利权)人:广东电网有限责任公司电力调度控制中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1