当前位置: 首页 > 专利查询>赛思研究所专利>正文

分布式数据集存储和检索制造技术

技术编号:19247175 阅读:26 留言:0更新日期:2018-10-24 08:56
装置包括处理器组件,使得所述处理器组件:检索数据集内的数据的组织的元数据以及数据文件内的数据块的组织的映射数据;接收哪些节点设备可用于利用数据集部分执行处理任务的指示;和响应于数据集包括分区数据,比较可用节点设备的数量和存储数据集中最后涉及到的节点设备的数量。响应于匹配,针对仙人掌映射数据映射条目:检索用于数据子块的散列化标识符以及用于对应数据块内的每个数据子块的大小;将散列化标识符除以可用节点设备的数量;将模值与分配给每个可用节点设备的指定进行比较;和向分配了匹配指定的可用节点设备提供指针。

【技术实现步骤摘要】
【国外来华专利技术】分布式数据集存储和检索相关申请的交叉引用本申请要求针对以下的优先权的益处:2015年7月27日提交的美国临时申请序列号62/197,514;2015年7月27日提交的美国临时申请序列号62/197,519;2016年7月26日提交的美国申请序列号15/220,034;2016年7月26日提交的美国申请序列号15/220,182;以及2016年7月26日提交的美国申请序列号15/220,192。美国临时申请序列号62/197,514、美国临时申请序列号62/197,519、美国申请序列号15/220,034、美国申请序列号15/220,182和美国申请序列号15/220,192的公开内容由此出于所有目的通过引用以其相应整体并入本文。
本文描述的各种实施例大体上针对设备间协调和数据集组织,以改进由多个节点设备所处理的数据集的分布式存储和检索。
技术介绍
大数据集(例如,通常被称为“大数据”的那些)的分析的性能在诸如模拟、过程监控、决策、行为建模和做出预测之类的领域中变得越来越普遍。这样的分析通常由不同数量的可用节点设备的网格来执行,而数据集通常存储在分离的一组存储设备内。这产生了在存储设备和节点设备的网格当中的节点设备中的不同节点设备之间高效地交换这样的大数据集的挑战。
技术实现思路

技术实现思路
不旨在仅标识所描述主题的关键或基本特征,也不旨在孤立地使用以确定所描述主题的范围。主题应当通过参考本专利的整个说明书的适当部分、任何或所有附图和每个权利要求来理解。一种装置可以包括处理器组件和存储指令的存储装置,所述指令当由处理器组件执行时可以使得处理器组件通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中映射数据包括多个映射条目,和所述多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;以及从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示。响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中,并且每个映射条目对应于单个数据块,可以使得处理器组件执行包括以下的操作:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;和向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述系列从整数值0延伸至等于第一数量减去整数值1的正整数值。另外,响应于检测到第一和第二数量之间的匹配,针对映射数据的每个映射条目,可以使得处理器组件执行包括以下的操作:从映射条目检索在映射条目中被指示为在对应数据块内的一个数据子块的散列化标识符以及在映射条目中被指示为在对应数据块内的每个数据子块的数据子块大小,其中散列化标识符从多个分区中的分区的分区标签导出并且数据子块包括一个或多个数据集部分中的数据集部分;确定数据文件内的对应数据块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括对应数据块的位置的指示和对应数据块内的所有数据子块的数据子块大小的总和。响应于数据集包括分区数据的指示并且响应于检测到第一和第二数量之间的匹配的不存在,可以针对对应数据块内的数据子块的每个映射条目内的每个指示使得所述处理器组件执行操作,所述操作包括:从映射条目检索数据子块大小和数据子块的散列化标识符;确定数据文件内的数据子块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,其中所述指针包括数据子块的位置的指示和数据子块大小。响应于数据集不包括分区数据的元数据或映射数据内的指示,针对映射数据的每个映射条目,处理器组件可以从映射条目检索数据块大小和数据块数量,其中所述数据块数量指示对应于所述映射条目的所述数据文件中的相邻数据块的数量。处理器组件还可以针对对应于所述映射条目的每个数据块执行包括以下的操作:确定数据文件内的对应数据块的位置;选择可用节点设备中的一个;和向可用节点设备中的所选择一个提供指针,所述指针包括对应数据块的位置的指示和数据块大小。对可用节点设备中的一个的选择可以包括对可用节点设备中的一个的轮询选择。装置可以包括可用节点设备中的一个。可以使得处理器组件作为可用节点设备中的所述一个与可用节点设备中的至少另外一个至少部分并行地利用从所述数据文件所检索的至少一个数据集部分执行处理任务。为了从一个或多个存储设备检索所述映射数据,可以使得处理器组件执行包括以下的操作:从数据文件检索映射库;分析所述映射库以确定映射数据的至少一部分是否存储在数据文件内的一个或多个映射扩展内;和响应于映射数据的至少一部分存储在一个或多个映射扩展内的确定,从数据文件检索一个或多个映射扩展并且从一个或多个映射扩展检索映射条目的至少一个子集。响应于映射数据的任何部分都不存储在一个或多个映射扩展内的确定,可以使得处理器从映射库检索所有映射条目。为了接收多个节点设备中的哪些节点设备是可用的指示,可以使得处理器组件执行包括以下的操作:重复地从多个节点设备接收状态的指示;和重复地更新多个节点设备中的每个节点设备的可用性的所存储的指示。可以使得处理器组件执行包括以下的操作:向多个节点设备提供要利用所述数据集执行的任务的指示,以使得多个节点设备中的至少第一节点设备能够利用所述数据集的第一数据集部分执行所述任务并且使得多个节点设备中的至少第二节点设备能够至少部分并行地利用所述数据集的第二数据集部分执行所述任务。一种有形地体现在非暂时机器可读存储介质中的计算机程序产品,所述计算机程序产品包括可操作以使得处理器组件执行包括以下的操作的指令:通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中映射数据包括多个映射条目,并且多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;并且从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示。响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中并且每个映射条目对应于单个数据块,可以使得处理器组件执行包括以下的操作:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;并且向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述本文档来自技高网...

【技术保护点】
1.一种装置,包括处理器组件和存储指令的存储装置,所述指令当由处理器组件执行时使得处理器组件执行操作,所述操作包括:通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中:映射数据包括多个映射条目;和所述多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示;和响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中,并且每个映射条目对应于单个数据块:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述系列从整数值0延伸至等于第一数量减去整数值1的正整数值;和响应于检测到第一和第二数量之间的匹配,针对映射数据的每个映射条目:从映射条目检索在映射条目中被指示为在对应数据块内的一个数据子块的散列化标识符以及在映射条目中被指示为在对应数据块内的每个数据子块的数据子块大小,其中:散列化标识符从多个分区中的分区的分区标签导出;和数据子块包括一个或多个数据集部分中的数据集部分;确定数据文件内的对应数据块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:对应数据块的位置的指示;和对应数据块内的所有数据子块的数据子块大小的总和。...

【技术特征摘要】
【国外来华专利技术】2015.07.27 US 62/197514;2015.07.27 US 62/197519;201.一种装置,包括处理器组件和存储指令的存储装置,所述指令当由处理器组件执行时使得处理器组件执行操作,所述操作包括:通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中:映射数据包括多个映射条目;和所述多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示;和响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中,并且每个映射条目对应于单个数据块:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述系列从整数值0延伸至等于第一数量减去整数值1的正整数值;和响应于检测到第一和第二数量之间的匹配,针对映射数据的每个映射条目:从映射条目检索在映射条目中被指示为在对应数据块内的一个数据子块的散列化标识符以及在映射条目中被指示为在对应数据块内的每个数据子块的数据子块大小,其中:散列化标识符从多个分区中的分区的分区标签导出;和数据子块包括一个或多个数据集部分中的数据集部分;确定数据文件内的对应数据块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:对应数据块的位置的指示;和对应数据块内的所有数据子块的数据子块大小的总和。2.根据权利要求1所述的装置,其中,响应于数据集包括分区数据的指示并且响应于检测到第一和第二数量之间的匹配的不存在,使得所述处理器组件执行操作,所述操作包括:针对对应数据块内的数据子块的每个映射条目内的每个指示:从映射条目检索数据子块大小和数据子块的散列化标识符;确定数据文件内的数据子块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:数据子块的位置的指示;和数据子块大小。3.根据权利要求1所述的装置,其中,使得所述处理器组件执行操作,所述操作包括:响应于数据集不包括分区数据的元数据或映射数据内的指示,针对映射数据的每个映射条目:从映射条目检索数据块大小和数据块数量,其中所述数据块数量指示对应于所述映射条目的所述数据文件中的相邻数据块的数量;和针对对应于所述映射条目的每个数据块:确定数据文件内的对应数据块的位置;选择可用节点设备中的一个;和向可用节点设备中的所选择一个提供指针,所述指针包括:对应数据块的位置的指示;和数据块大小。4.根据权利要求3所述的装置,其中,对可用节点设备中的一个的选择包括对可用节点设备中的一个的轮询选择。5.根据权利要求1所述的装置,其中,所述装置包括可用节点设备中的一个。6.根据权利要求5所述的装置,其中,所述处理器组件作为可用节点设备中的所述一个与可用节点设备中的至少另外一个至少部分并行地利用从所述数据文件所检索的至少一个数据集部分执行处理任务。7.根据权利要求1所述的装置,其中,为了从一个或多个存储设备检索所述映射数据,使得所述处理器组件执行操作,所述操作包括:从数据文件检索映射库;分析所述映射库以确定映射数据的至少一部分是否存储在数据文件内的一个或多个映射扩展内;和响应于映射数据的至少一部分存储在一个或多个映射扩展内的确定:从数据文件检索一个或多个映射扩展;和从一个或多个映射扩展检索映射条目的至少一个子集。8.根据权利要求7所述的装置,其中,响应于映射数据的任何部分都不存储在一个或多个映射扩展内的确定,使得所述处理器执行包括从映射库检索所有映射条目的操作。9.根据权利要求1所述的装置,其中,为了接收多个节点设备中的哪些节点设备是可用的指示,使得所述处理器组件执行操作,所述操作包括:重复地从多个节点设备接收状态的指示;和重复地更新多个节点设备中的每个节点设备的可用性的所存储的指示。10.根据权利要求1所述的装置,其中,使得所述处理器组件执行操作,所述操作包括向多个节点设备提供要利用所述数据集执行的任务的指示,以使得多个节点设备中的至少第一节点设备能够利用所述数据集的第一数据集部分执行所述任务并且使得多个节点设备中的至少第二节点设备能够至少部分并行地利用所述数据集的第二数据集部分执行所述任务。11.一种有形地体现在非暂时机器可读存储介质中的计算机程序产品,所述计算机程序产品包括可操作以使得处理器组件执行操作的指令,所述操作包括:通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中:映射数据包括多个映射条目;和所述多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示;和响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中,并且每个映射条目对应于单个数据块:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述系列从整数值0延伸至等于第一数量减去整数值1的正整数值;和响应于检测到第一和第二数量之间的匹配,针对映射数据的每个映射条目:从映射条目检索在映射条目中被指示为在对应数据块内的一个数据子块的散列化标识符以及在映射条目中被指示为在对应数据块内的每个数据子块的数据子块大小,其中:散列化标识符从多个分区中的分区的分区标签导出;和数据子块包括一个或多个数据集部分中的数据集部分;确定数据文件内的对应数据块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:对应数据块的位置的指示;和对应数据块内的所有数据子块的数据子块大小的总和。12.根据权利要求11所述的计算机程序产品,其中,响应于数据集包括分区数据的指示并且响应于检测到第一和第二数量之间的匹配的不存在,使得所述处理器组件执行操作,所述操作包括:针对对应数据块内的数据子块的每个映射条目内的每个指示:从映射条目检索数据子块大小和数据子块的散列化标识符;确定数据文件内的数据子块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:数据子块的位置的指示;和数据子块大小。13.根据权利要求11所述的计算机程序产品,其中,使得所述处理器组件执行操作,所述操作包括:响应于数据集不包括分区数据的元数据或映射数据内的指示,针对映射数据的每个映射条目:从映射条目检索数据块大小和数据块数量,其中所述数据块数量指示对应于所述映射条目的所述数据文件中的相邻数据块的数量;和针对对应于所述映射条目的每个数据块:确定数据文件内的对应数据块的位置;选择可用节点设备中的一个;和向可用节点设备中的所选择一个提供指针,所述指针包括:对应数据块的位置的指示;和数据块大小。14.根据权利要求13所述的计算机程序产品,其中,对可用节点设备中的一个的选择包括对可用节点设备中的一个的轮询选择。15.根据权利要求13所述的计算机程序产品,其中,使得所述处理器组件执行操作,所述操作包括:响应于数据集不包括分区数据,作为可用节点设备中的一个与可用节点设备中的至少另外一个至少部分并行地采用对应于映射条目中的一个的数据块的数据块大小和位置的指示来从数据文件检索数据块。16.根据权利要求15所述的计算机程序产品,其中,使得所述处理器组件执行操作,所述操作包括:作为可用节点设备中的所述一个与可用节点设备中的至少另外一个至少部分并行地利用所述数据块执行处理任务。17.根据权利要求11所述的计算机程序产品,其中,为了从一个或多个存储设备检索所述映射数据,使得所述处理器组件执行操作,所述操作包括:从数据文件检索映射库;分析所述映射库以确定映射数据的至少一部分是否存储在数据文件内的一个或多个映射扩展内;和响应于映射数据的至少一部分存储在一个或多个映射扩展内的确定:从数据文件检索一个或多个映射扩展;和从一个或多个映射扩展检索映射条目的至少一个子集。18.根据权利要求17所述的计算机程序产品,其中,响应于映射数据的任何部分都不存储在一个或多个映射扩展内的确定,使得所述处理器组件执行包括从映射库检索所有映射条目的操作。19.根据权利要求11所述的计算机程序产品,其中,为了接收多个节点设备中的哪些节点设备是可用的指示,使得所述处理器组件执行操作,所述操作包括:重复地从多个节点设备接收状态的指示;和重复地更新多个节点设备中的每个节点设备的可用性的所存储的指示。20.根据权利要求11所述的计算机程序产品,其中,使得所述处理器组件执行操作,所述操作包括:向多个节点设备提供要利用所述数据集执行的任务的指示,以使得多个节点设备中的至少第一节点设备能够利用所述数据集的第一数据集部分执行所述任务;和作为第二节点设备与由第一节点设备对所述任务的执行至少部分并行地利用所述数据集的第二数据集部分执行所述任务。21.一种计算机实现的方法,包括:通过网络从一个或多个存储设备检索指示数据集内的数据的组织的元数据以及指示由一个或多个存储设备所维持的数据文件内的多个数据块的组织的映射数据,其中:映射数据包括多个映射条目;和所述多个映射条目中的每个映射条目对应于所述多个数据块中的一个或多个数据块;从多个节点设备接收所述多个节点设备中的哪些节点设备是各自能够利用一个或多个数据集部分中的至少一个数据集部分执行处理任务的可用节点设备的指示;和响应于数据集包括分区数据的元数据或映射数据内的指示,其中数据集内的数据被组织到每个可分布到单个节点设备的多个分区中,并且每个映射条目对应于单个数据块:基于哪些节点设备是可用节点设备的指示来确定可用节点设备的第一数量;从元数据或映射数据检索在数据文件内的数据集的存储中最后涉及到的节点设备的第二数量;比较节点设备的第一和第二数量以检测第一和第二数量之间的匹配;和向可用节点设备中的每一个分配一系列正整数值中的一个作为指定值,其中所述系列从整数值0延伸至等于第一数量减去整数值1的正整数值;和响应于检测到第一和第二数量之间的匹配,针对映射数据的每个映射条目:从映射条目检索在映射条目中被指示为在对应数据块内的一个数据子块的散列化标识符以及在映射条目中被指示为在对应数据块内的每个数据子块的数据子块大小,其中:散列化标识符从多个分区中的分区的分区标签导出;和数据子块包括一个或多个数据集部分中的数据集部分;确定数据文件内的对应数据块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:对应数据块的位置的指示;和对应数据块内的所有数据子块的数据子块大小的总和。22.根据权利要求21所述的计算机实现的方法,包括,响应于数据集包括分区数据的指示并且响应于检测到第一和第二数量之间的匹配的不存在:针对对应数据块内的数据子块的每个映射条目内的每个指示:从映射条目检索数据子块大小和数据子块的散列化标识符;确定数据文件内的数据子块的位置;将散列化标识符除以第一数量以获得模值;将模值与分配给每个可用节点设备的指定值进行比较,以标识被分配了与模值匹配的指定值的可用节点设备;和向被分配了与模值匹配的指定值的可用节点设备提供指针,所述指针包括:数据子块的位置的指示;和数据子块大小。23.根据权利要求21所述的计算机实现的方法,包括:响应于数据集不包括分区数据的元数据或映射数据内的指示,针对映射数据的每个映射条目:从映射条目检索数据块大小和数据块数量,其中所述数据块数量指示对应于所述映射条目的所述数据文件中的相邻数据块的数量;和针对对应于所述映射条目的每个数据块:确定数据文件内的对应数据块的位置;选择可用节点设备中的一个;和向可用节点设备中的所选择一个提供指针,所述指针包括:对应数据块的位置的指示;和数据块大小。24.根据权利要求23所述的计算机实现的方法,其中,选择可用节点设备中的一个包括对可用节点设备中的一个的轮询选择。25.根据权利要求21所述的计算机实现的方法,包括,响应于数据集包括分区数据,通过与可用节点设备中的至少另外一个至少部分并行地采用对应于映射条目中的一个的数据块的数据块大小和位置的指示来从数据文件检索数据块而充当可用节点设备中的一个。26.根据权利要求25所述的计算机实现的方法,包括,作为可用节点设备中的所述一个与可用节点设备中的至少另外一个至少部分并行地利用所述数据块内的每个数据子块执行处理任务。27.根据权利要求21所述的计算机实现的方法,其中,从一个或多个存储设备检索所述映射数据包括:从数据文件检索映射库;分析所述映射库以确定映射数据的至少一部分是否存储在数据文件内的一个或多个映射扩展内;和响应于映射数据的至少一部分存储在一个或多个映射扩展内的确定:从数据文件检索一个或多个映射扩展;和从一个或多个映射扩展检索映射条目的至少一个子集。28.根据权利要求27所述的计算机实现的方法,其中,从一个或多个存储设备检索映射数据包括,响应于映射数据的任何部分都不存储在一个或多个映射扩展内的确定,从映射库检索所有映射条目。29.根据权利要求21所述的计算机实现的方法,其中,接收多个节点设备中的哪些节点设备是可用的指示包括:重复地从多个节点设备接收状态的指示;和重复地更新多个节点设备中的每个节点设备的可用性的所存储的指示。30.根据权利要求21所述的计算机实现的方法,包括,向多个节点设备提供要利用所述数据集执行的任务的指示,以使得多个节点设备中的至少第一节点设备能够利用所述数据集的第一数据集部分执行所述任务并且使得多个节点设备中的至少第二节点设备能够至少部分并行地利用所述数据集的第二数据集部分执行所述任务。31.一种装置,包括处理器组件和存储指令的存储装置,所述指令当由处理器组件执行时使得处理器组件执行操作,所述操作包括:从多个节点设备中的至少一个节点设备接收指示数据集内的数据的组织的元数据的至少一部分;从所述多个节点设备接收所述多个节点设备中的哪些节点设备将要在作为由一个或多个存储设备所维持的数据文件内的多个数据块的数据集的存储中涉及到的指示,其中:在包括多个映射条目的映射数据中指示数据文件内的多个数据块的组织;和多个映射条目中的每个映射条目对应于多个数据块中的一个或多个数据块;从数据集的存储中涉及到的每个节点设备接收针对指向节点设备将要在其处存储至少一个数据集部分作为数据块的数据文件内的位置的指针的请求;响应于从至少一个节点设备接收的数据集包括分区数据的指示,其中数据集内的数据被组织到各自可分布到单个节点设备的多个分区中并且每个映射条目对应于单个数据块,针对从数据集的存储中涉及到的节点设备接收的针对指针的每个请求:确定节点设备将要在其处存储数据块的数据文件内的位置;在对应于数据块的映射数据内生成映射条目;在所述映射条目内生成指示要由节点设备存储在所述数据块内的数据子块的数量的数据子块计数,其中每个数据子块包括要由节点设备存储的数据集的数据集部分;在所述映射条目内生成用于每个数据子块的单独的映射子条目,其中每个映射子条目包括指示对应数据集部分的大小的子块大小和从对应数据集部分所属于的分区的分区标签导出的散列化标识符;和向节点设备提供指针,所述指针包括节点设备将要在其处在数据文件中存储数据块的位置的指示;和响应于由数据集的存储中涉及到的所有节点设备在数据文件内成功存储数据集的所有数据块,将映射数据存储在数据文件中。32.根据权利要求31所述的装置,其中,响应于从至少一个节点设备接收的数据集包括分区数据的指示的不存在,使得所述处理器组件执行操作,所述操作包括:针对从数据集的存储中涉及到的节点设备接收的针对指针的每个请求:确定节点设备要在其处存储数据块的数据文件内的位置;将数据块的数据块大小与针对要由多个节点设备中的另一个节点设备存储在数据文件内的相邻位置处的相邻数据块的映射数据中指示的数据块大小进行比较,以检测两个数据块大小之间的匹配;响应于检测到两个数据块大小之间的匹配,递增对应于相邻数据块的映射数据内的映射条目的数据块计数;响应于检测到两个数据块大小之间的匹配的不存在,在对应于数据块的映射数据内生成新的映射条目,其中新的映射条目包括指示与单个数据块的对应的数据块计数和指示数据块的大小的数据块大小;和向节点设备提供指针,所述指针包括节点设备将要在其处在数据文件中存储数据块的位置的指示。33.根据权利要求31所述的装置,其中,元数据的所述至少一部分包括从至少一个节点设备接收的数据集包括分区数据的指示。34.根据权利要求31所述的装置,其中:要求数据集的存储中涉及到的每个节点设备生成针对用于分布到节点设备的所有数据集部分的存储的指针的单个请求;和使得处理器组件确定所有指针已经基于从数据集的存储中涉及到的每个节点设备接收到针对指针的单个请求而被生成以用于由数据集的存储中涉及到的所有节点设备在数据文件中存储数据集的所有数据集部分。35.根据权利要求31所述的装置,其中,所述装置包括数据集的存储中涉及到的节点设备中的一个。36.根据权利要求31所述的装置,其中,为了接收数据文件内的数据集的存储中涉及到了多个节点设备中的哪些节点设备的指示,使得所述处理器组件执行操作,所述操作包括:重复地从多个节点设备中的每个节点设备接收状态的指示;和重复地更新多个节点设备中的每个节点设备是否在数据集的存储中被涉及到的所存储的指示。37.根据权利要求31所述的装置,其中,为了将映射数据存储在数据文件中,使得所述处理器组件执行操作,所述操作包括:确定映射数据的大小是否超过预定数据大小;和响应于映射数据的大小超过预定数据大小的确定:将映射数据划分到一个或多个映射扩展中;在分散在由数据集的存储中涉及到的节点设备所存储的数据块之间的位置处在数据文件内存储一个或多个映射扩展;和在数据文件内存储包括指向数据文件内的每个映射扩展的位置的一个或多个指针的映射库。38.根据权利要求37所述的装置,其中,映射扩展中的第一个之后的位置处的数据文件内存储的每个映射扩展的大小是前一映射扩展的大小的两倍。39.根据权利要求31所述的装置,其中,使得所述处理器组件执行操作,所述操作包括,向数据集的存储中涉及到的节点设备提供要利用数据集执行的任务的指示,以使得多个节点设备中的至少第一节点设备能够利用所述数据集的第一数据集部分执行所述任务并且使得多个节点设备中的至少第二节点设备能够至少部分并行地利用所述数据集的第二数据集部分执行所述任务。40.根据权利要求31所述的装置,其中,每个散列化标识符包括从取自唯一地标识多个分区的分区中的一个的分区标签的散列所导出的整数值。41.一种有形地体现在非暂时机器可读存储介质中的计算机程序产品,所述计算机程序产品包括可操作以使得处理器组件执行操作的指令,所述操作包括:从多个节点设备中的至少一个节点设备接收指示数据集内的数据的组织的元数据的至少一部分;从所述多个节点设备接收所述多个节点设备中的哪些节点设备将要在作为由一个或多个存储设备所维持的数据文件内的多个数据块的数据集的存储中涉及到的指示,其中:在包括多个映射条目的映射数据中指示数据文件内的多个数据块的组织;和多个映射条目中的每个映射条目对应于多个数据块中的一个或多个数据块;从数据集的存储中涉及到的每个节点设备接收针对指向节点设备将要在其处存储至少一个数据集部分作为数据块的数据文件内的位置的指针的请求;响应于从至少一个节点设备接收的数据集包括分区数据的指示,其中数据集内的数据被组织到各自可分布到单个节点设备的多个分区中并且每个映射条目对应于单个数据块,针对从数据集的存储中涉及到的节点设备接收的针对指针的每个请求:确定节点设备将要在其处存储数据块的数据文件内的位置;在对应于数据块的映射数据内生成映射条目;在所述映射条目内生成指示要由节点设备存储在所述数据块内的数据子块的数量的数据子块计数,其中每个数据子块包括要由节点设备存储的数据集的数据集部分;在所述映射条目内生成用于每个数据子块的单独的映射子条目,其中每个映射子条...

【专利技术属性】
技术研发人员:BP鲍曼SE克吕格尔RT奈特CW候
申请(专利权)人:赛思研究所
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1