The invention relates to a method of large data migration, which includes the following steps: S1. establishes a proxy program for a specified legacy file system in a specified legacy system that can read or write data from a legacy file system or read or write data; S2. is based on step S1, the agent read out the yuan. The data is imported into the large data file system, and based on the metadata, the legacy file system stubs are established and stored in the large data file system compatible with the large data file system. The S3. large data file system reads / writes data from the legacy file system from the legacy file system through the proxy program. The result of data read and write will be returned to the initiator of external data I/O.
【技术实现步骤摘要】
一种大数据迁移的方法及系统
本专利技术涉及及大数据的
,特别涉及一种大数据迁移的方法及系统。
技术介绍
目前,大数据作为数据爆炸的结果,其内在隐藏的价值和挑战已经越来越被业界所认识。所谓“大数据”包含以下四个层面的含义:第一、数据体量巨大,从TB级别跃升到PB级别;第二、数据类型繁多,主要包括网络日志、视频、图片、地理位置信息等等;第三、价值密度低,以视频为例,在连续不间断地监控过程中,可能有用的视频只有一两秒钟;第四、处理速度快,1秒定律。尤其,第四点处理速度快与传统的数据挖掘技术有着本质的不同。对大数据进行分析,进而从中挖掘出有价值的商业信息已经成为企业未来核心竞争力之一。大数据分析主要包括大规模结构化数据分析和非结构化数据(包含半结构化数据)分析,其目前的解决方案是通过使用MapReduce框架对大规模非结构化数据处理,将处理结果导入到数据仓库,进而使用商业智能或者数据预测分析等方法及工具,挖掘数据内在的价值。鉴于基于数据仓库及商业智能软件大规模结构化数据的分析技术及工具已经很成熟。以文件为主体的非结构化数据以远远超过结构化数据的速度增长,成为了大数据的主要来源,也成为了大数据分析面临的主要挑战。对大规模非结构化数据的分析是大数据分析需要解决的主要问题,所谓大规模非结构化数据分析,就是需要把从各个分散的异构的系统中产生的数据,聚合(迁移)到一个大数据文件系统;进一步地,使用MapReduce框架对存储在该文件系统上的数据进行处理,将处理结果导入到相应的大规模结构化数据分析套件中。大数据文件系统,主要指的是服务于非结构化大数据分析的文件系统,典型 ...
【技术保护点】
一种大数据迁移的方法,其特征在于:包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。
【技术特征摘要】
1.一种大数据迁移的方法,其特征在于:包括以下步骤:S1.在指定遗留系统中为指定的遗留文件系统建立一个代理程序,所述的代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据;S2.基于步骤S1,代理程序读出的元数据被导入到大数据文件系统中,并根据该元数据,在大数据文件系统中按照与大数据文件系统兼容的格式建立且保存遗留文件系统存根;S3.大数据文件系统通过代理程序从遗留文件系统存根对应的遗留文件系统中读/写数据,数据读写的结果将被返回给外部数据I/O读写请求的发起者。2.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S1的具体如下:S11.用于分析的数据产生于各个分散的异构遗留系统,且保存在各个异构的遗留文件系统中;S12.为了确保数据安全,屏蔽大数据文件系统中客户端和服务器端对这些数据的直接访问;S13.在每个遗留系统中为每个指定的遗留文件系统建立一个代理程序,该代理程序能够从遗留文件系统中读出元数据,也能读出或者写入数据。3.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S2的具体如下:S21.将指定遗留系统中指定的遗留文件系统对应的代理程序读出的元数据导入到大数据文件系统中;S22.大数据文件系统中为遗留文件系统存根建立一个命名空间;将导入的遗留文件系统中的文件和目录按照预置的顺序放置在大数据文件系统元数据中所述命名空间之下;S23.按照大数据文件系统兼容格式建立且保存对应遗留文件系统中的文件和目录;根据导入的遗留文件系统元数据信息,按照大数据文件系统兼容格式建立且保存它们的元数据信息。所述的步骤S2根据系统实现的需要,用于建立遗留文件系统存根的元数据信息的传输可以有不同的实现方式。4.根据权利要求1所述的大数据迁移的方法,其特征在于:包括以下步骤:所述的步骤S3的具体如下:S31.I/O读写请求到达大数据文件系统中的指定遗留文件系统存根的...
【专利技术属性】
技术研发人员:苏卓,李伟坚,施展,姜文婷,吴赞红,
申请(专利权)人:广东电网有限责任公司电力调度控制中心,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。