当前位置: 首页 > 专利查询>伊姆西公司专利>正文

用于分布式文件系统的内容构造技术方案

技术编号:13093326 阅读:82 留言:0更新日期:2016-03-30 20:10
讨论了一种用于在分布式文件系统上提供内容服务的方法、制品、以及装置。这些服务可以被应用到文件、数据块、和/或元数据。位于分布式文件系统内或者与分布式文件系统并排的内容构造可以应用这些服务。

【技术实现步骤摘要】
【专利说明】相关申请的交叉引用本申请涉及与其在同一日期提交的美国专利申请系列号Nos._____名称为“DYNAMICALLY COMPOSED COMPUTE NODES COMPRISING DISAGGREGATED COMPONENTS”(EMC案卷号N0.EMC-14-0279)、__________名称为“SOFTWARE OVERLAYS FOR DISAGGREGATEDCOMPONENTS”(EMC案卷号N0.EMC-14-0280)、___________名称为 “APPLICAT1N ANDINFORMAT1N MOVEMENT IN A CLOUD ENVIRONMENT,,(EMC案卷号N0.EMC-14-0264)、___名称为“CL0UDB00K”(EMC案卷号N0.EMC-14-0265)、以及___名称为 “MIGRATING PRIVATE INFRASTRUCTURE SERVICES TO A CLOUD”(EMC案卷号N0.EMC-14-0281),它们由此通过引用它们的整体并入本文。
本专利技术一般性地涉及分布式文件系统,并且更特别地涉及用于在分布式文件系统上提供内容服务的系统和方法。
技术介绍
数据中心和云基础设施正在开始部署主导性地基于分布式文件系统的“数据湖(Data Lake)”架构。分布式文件系统的一个示例是Hadoop分布式文件系统(“HDFS”)。分布式文件系统经常是高度可伸缩的,能够操作在低成本硬件上,并且支持分析算法。然而,它们缺少在更为传统的系统上找到的内容服务。因此,存在对于一种用于在分布式文件系统上提供内容服务的系统、方法、以及过程的需求。【附图说明】通过以下的详细描述结合附图,将容易地理解本专利技术,在附图中,相似的参考标号指示相似的结构元件,并且其中:图1描绘了符合于本公开内容的一个实施例的解决方案堆栈。图2描绘了用于提供符合于本公开内容的一个实施例的内容服务的过程。图3描绘了用于同步地应用以及异步地应用符合于本公开内容的一个实施例的文件策略的流程图。图4描绘了用于同步地应用以及异步地应用符合于本公开内容的一个实施例的块策略的流程图。图5描绘了用于应用符合于本公开内容的一个实施例的元数据策略的流程图。【具体实施方式】下面与图示出本专利技术的原理的附图一起,提供了本专利技术的一个或多个实施例的详细描述。尽管结合这些实施例描述了本专利技术,但是应当理解,本专利技术不被限制于任何一个实施例。相反地,本专利技术的范围仅由权利要求来限定,并且本专利技术涵盖许多替换物、修改、以及等价物。为了示例的目的,以下的描述中阐述了许多具体细节,以便于提供对本专利技术的彻底理解。这些细节被提供是为了示例的目的,并且本专利技术可以根据不具有这些具体细节中的一些或者全部细节的权利要求来实行。为了清楚的目的,没有详细地描述在涉及本专利技术的
中已知的技术材料,从而不会不必要地使本专利技术晦涩难懂。应当意识到,能够以许多方式来实施本专利技术,包括作为过程、装置、系统、设备、方法、或者计算机可读介质,诸如计算机可读存储介质或者在其中通过光学或电子通信链路来发送计算机程序指令的计算机网络。应用可以采取在一般目的计算机上执行或者在硬件中被硬接线或硬编码的软件的形式。在这个说明书中,这些实施方式、或者本专利技术可以采取的任何其他形式,可以被称为技术。一般而言,在本专利技术的范围内,可以更改所公开的过程的步骤的顺序。将参考采用被配置为存储文件的存储系统的形式的数据存储系统来描述本专利技术的一个实施例,但是应当理解,本专利技术的原理不限制于这种配置。确切地说,它们可应用到能够存储和处置采用模拟、数字、或者其他形式的各种类型的对象的任何系统。尽管可能通过示例的方式使用了诸如文档、文件、对象等术语,但是本专利技术的原理不限制于表示和存储数据或其他信息的任何特定形式;确切地说,它们等同地可应用到能够表示信息的任何对象。本公开内容描述了用于在包括分布式文件系统(诸如Hadoop文件系统(“HDFS”))的环境中提供内容构造(content fabric)的系统和方法。这个内容构造可以将策略(诸如管制或者合规功能)应用或者施行到该文件系统上存储的二进制对象、文件、或者其他数据。在一个实施例中,内容构造可以位于应用堆栈中并且同步地和/或异步地将这些策略应用到文件和/或数据块。这些策略可以基于文件它自身和/或文件元数据,并且可以因此在文件达到时动态地被应用。这些策略由此提供了传统地不在分布式文件系统上供应的数据服务。图1描绘了符合于本公开内容的一个实施例的解决方案堆栈。该解决方案堆栈可以包括全部都操作在平台即服务(“Paas”)层106上的应用构造100、数据构造102、以及内容构造104 Waas层106进而可以操作在物理基础设施108上,物理基础设施108可以包括一个或多个包括处理器、存贮器、和/或存储器的物理机。在一个实施例中,应用构造100可以包括向被具体化在Paas106中的虚拟基础设施进行写入或者从其进行读取的应用。可以经由数据构造102来访问这个虚拟基础设施,数据构造102可以包括分布式文件系统,诸如HDFS。在一些实施例中,数据构造102包括数据分析工具,这些数据分析工具用于将数据摄入分布式文件系统中、从分布式文件系统查询并且导出数据。这些工具可以包括查询接口,诸如Pivotal HD、SQL到HDFS转换接口(诸如Pivotal HAWQ)、存储器中的数据网格分析(诸如Pivota 1 GemFire)、或者非结构化的模式识别工具(诸如Pivotal Analytics)。内容构造104可以包括传统上不可用于分布式文件系统的内容服务。这些内容服务可以包括响应于给定的文件、文件类型、和/或内容而被执行的策略或者其他逻辑。例如,内容服务可以是将一种文件格式变换到另一种文件格式(例如,bmp到jpeg)的内容变换服务。下面详细地讨论不同的内容服务。分布式文件系统(诸如HDFS)可以在将文件写入到物理或虚拟存贮器之前处理它们。例如,分布式文件系统可以将文件拆分为块,并且将这些块存储在分布式系统中的不同位置。作为结果,内容构造104可以将内容服务既应用到文件它们自身并且又应用到系统上所存储的成分块(constituent block)。例如,在文件级别,策略可以确定视频文件应当从AVI格式变换为MPEG格式。类似地,在块级别,策略可以确定这些块应当被存储在特定的地理位置,因为它们包含敏感信息。内容构造104可以做出这些确定并且将适当的策略应用到文件它自身或者文件的成分块。在一些实施例中,内容构造104可以直接地并入分布式文件系统中。例如,HDFS的实例可以被修改以包括内容构造。另外地或者替换地,内容构造可以被实施在处于与分布式文件系统的通信中的分离模块中。现在转向图2,讨论了一种用于使用内容构造来处理文件的方法。这个方法可以被使用例如来提供在分布式文件系统的上方、与分布式文件系统并排、或者被嵌入在分布式文件系统中的内容服务。在框200处,接收将被存储在分布式文件系统上的文件。可以例如从应用构造100接收这个文件。在一些实施例中,该文件被传输当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种用于在分布式文件系统上提供内容管理服务的方法,所述方法包括:接收要存储在所述分布式文件系统上的对象;确定针对所述文件是否对象策略存在;将所述对象划分为多个数据块;确定针对所述对象是否块策略存在;以及将所述数据块存储在所述分布式文件系统中。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:S·J·托德J·M·范罗特丹
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1