在基于NAND的读取源存储中提高大数据分析吞吐量的方法和系统技术方案

技术编号:27195814 阅读:29 留言:0更新日期:2021-01-31 11:50
一个实施例促进了存储设备中的数据访问。在操作期间,系统通过存储设备从与该存储设备分离的原始物理介质中获得文件,其中该文件包括先前已经基于纠错码(ECC)进行了编码的压缩数据。所述系统将所获得的文件作为只读副本存储在存储设备的物理介质上。响应于接收到读取文件的请求,系统通过存储设备基于ECC将副本解码以获得ECC解码的数据,其中ECC解码的数据随后由与存储设备关联的计算设备解压缩,并作为请求的文件返回。为请求的文件返回。为请求的文件返回。

【技术实现步骤摘要】
在基于NAND的读取源存储中提高大数据分析吞吐量的方法和系统


[0001]本公开总体上涉及数据存储领域。更具体地,本公开涉及用于提高基于NAND的读取源存储中的大数据分析的吞吐量的方法和系统。

技术介绍

[0002]互联网和电子商务的激增继续创建大量的数字内容。已经创建了各种分布式存储系统来访问和存储这些数字内容。在一些读取密集型场景中,存储系统可能会存储数据的原始版本,在存储系统其中已存储的原始数据经常被读取或访问,但不一定进行更新。读取密集型方案的一个示例是“大数据”分析,其中涉及检查大量不同的数据集(即大数据),以识别相关信息,例如隐藏模式、市场趋势、未知相关性以及可能与用户相关的任何信息。大数据分析需要经常读取大量数据,而源数据则保持不变。为了加速由多个数据分析服务器执行的数据分析处理,通常将中间结果存储在存储样式的介质中。但是,这可能会导致通过以太网长距离传输大量数据的相当大的开销。为了避免这种开销,通常会复制读取源以在每个站点上形成本地副本,因此,低成本和高吞吐量都是存储源数据副本的实际和基本要求。
[0003]在当前的大数据分析中,常规的分布式存储系统可用于为原始数据源的多个存储副本提供所需的存储。但是,使用常规的分布式存储系统可能会导致一些挑战和效率低下,其中包括:昂贵地部署由数十个计算服务器和存储服务器(包括网络)组成的整个分布式存储系统;数据中心中昂贵的机架空间;电力成本高;并且访问存储在存储服务器中的副本的延迟高。
[0004]随着大数据分析的继续增长,常规分布式存储系统的低效率和挑战也将继续增长。

技术实现思路

[0005]一个实施例促进了存储设备中的数据访问。在操作期间,系统通过存储设备从与该存储设备分离的原始物理介质中获取文件,其中,该文件包括压缩的无错误数据,该数据先前已基于纠错码(ECC)进行了编码。所述系统将所获得的文件作为只读副本存储在存储设备的物理介质上。响应于接收到读取文件的请求,系统由存储设备基于ECC对副本进行解码以获得ECC解码的数据,其中,ECC解码的数据随后由与存储设备关联的计算设备解压缩,并作为请求的文件返回。
[0006]在一些实施例中,基于第一协议从请求实体接收读取文件的请求。在所述计算设备解压缩所述ECC解码的数据之后,系统将解压缩的数据作为请求的文件返回至请求实体,而不执行任何ECC编码。
[0007]在一些实施例中,由计算设备的并行解压缩引擎执行对所述ECC解码的数据进行解压缩。
[0008]在一些实施例中,读取文件的请求由计算设备接收,并由所述通过一系统发送到存储设备,该系统包括以下至少一个:第一以太网交换机和第二以太网交换机;第一智能网络接口卡(NIC)和第二智能网络接口卡(NIC);多个外围高速互PCIe交换机;其中,第一智能网卡和第二智能网卡均包括一个简单的存储节点,包括:到第一以太网交换机和第二以太网交换机的上行链路;经由多个PCIe通道的多个PCIe交换机的下行链路,所述多个PCIe通道用于连接到所述存储设备和多个其他存储设备。
[0009]在一些实施例中,读取文件的请求进一步由第二计算设备接收,并且还被第二计算设备经由该系统传输至存储设备;该第二计算设备是该计算设备的备用服务器或高可用性服务器。
[0010]在一些实施例中,所述系统通过计算设备存储由文件名到与所述存储设备相关联的当前物理块地址的映射。
[0011]在一些实施例中,响应于检测到将文件从所述当前物理块地址移动到与存储设备相关联的新物理块地址的条件,系统更新文件名到新物理文件的映射块地址。
[0012]在一些实施例中,存储在所述存储设备中的文件的格式包括一个或多个:表示与文件相关联的起始位置的前同步码(pre-amble);文件的唯一文件标识符;文件的内容;后同步码(post-amble),表示与文件相关联的结束位置;用于验证文件内容的一致性的循环冗余校验(CRC)签名。
[0013]在一些实施例中,第一存储设备不包括:执行ECC编码的模块或单元;动态随机存取存储器(DRAM)接口和通过该DRAM接口访问的DRAM模块;执行闪存转换层(FTL)功能的处理器,所述功能包括将逻辑块地址映射到物理块地址。
[0014]另一实施例提供了一种分布式存储系统,用于通过一个或多个客户端便于一个或多个大数据分析应用。该分布式存储系统包括;前端头服务器、交换机以及连接到该交换机的多个NAND卡;前端头服务器被配置为接收读取文件的请求;所述NAND卡被配置为:通过所述交换机接收读取存储在所述NAND卡上的文件的请求;以及并由NAND卡基于纠错码(ECC)将文件解码以获取ECC解码的数据;前端头服务器配置为对ECC解码的数据进行解压缩,并将解压缩后的数据作为请求的文件返回。
[0015]在一些实施例中,NAND卡还被配置为从与该NAND卡分离的原始物理介质获得文件,其中文件包括先前基于纠错码(ECC)编码的压缩数据。NAND卡还被配置为在不执行任何ECC编码的情况下将ECC解码的数据返回到前端头服务器。NAND卡不包括:执行ECC编码的模块或单元动态随机存取存储器(DRAM)接口和通过DRAM接口访问的DRAM模块;执行闪存转换层(FTL)功能的处理器,所述功能包括将逻辑块地址映射到物理块地址;从而通过减少ECC编码的数量来便于大数据分析应用有效地分析数据。
附图说明
[0016]图1示出了根据现有技术的用于便于在存储设备中的数据访问的示例性环境。
[0017]图2示出了根据本申请的实施例的用于便于在存储设备中的数据访问的示例性环境。
[0018]图3示出了根据本申请的实施例的用于原始数据源中的数据放置以及复制到读取源副本中的数据放置、包括数据I/O路径的示例性环境。
[0019]图4示出了根据本申请的实施例的包括具有简化架构的NAND卡的存储设备的示例图。
[0020]图5示出了根据本申请的实施例的文件到物理块地址的示例性映射。
[0021]图6示出了根据本申请的实施例的文件格式和NAND块布局的示例图。
[0022]图7A呈现了示出根据本申请的实施例的用于便于在存储设备中数据访问的方法的流程图。
[0023]图7B呈现了示出根据本申请的实施例的用于便于在存储设备中的数据访问的方法的流程图。
[0024]图8示出了根据本申请的实施例的便于在存储设备中的数据访问的示例性计算机系统和存储系统。
[0025]图9示出了根据本申请的实施例的便于在存储设备中进行数据访问的示例性装置。
[0026]在附图中,相同的附图标记指代相同的附图元素。
具体实施方式
[0027]提供以下描述以使本领域的任何技术人员能够制造和使用实施例,并且在特定应用及其要求的上下文中提供以下描述。对于所公开的实施例的各种修改对于本领域技术人员将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文中定义的一般原理可以应用于其他实施例和应用中。因此本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的用于在存储设备中便于数据访问方法,该方法包括:由存储设备接收读取存储在该存储设备的物理介质上的文件的请求;和由所述存储设备根据纠错码(ECC)对所述文件进行解码,得到ECC解码的数据;其中,所述ECC解码的数据随后被与所述存储设备关联的计算设备解压缩,并作为请求的文件返回。2.根据权利要求1所述的方法,其中,基于第一协议从请求实体接收读取文件的请求,其中,在所述计算设备对所述ECC解码的数据进行解压缩之后,该方法还包括:将所述解压缩的数据作为请求的文件返回至所述请求实体,而不执行任何ECC编码。3.根据权利要求1所述的方法,其中解压缩所述ECC解码的数据由所述计算设备的并行解压缩引擎执行。4.如权利要求1所述的方法,其特征在于,所述读取文件的请求由所述计算设备接收并由所述计算设备通过一系统发送到存储设备,该系统包括以下至少一个:第一以太网交换机和第二以太网交换机;第一智能网络接口卡(NIC)和第二智能网络接口卡(NIC);和多个外围高速互连(PCIe)交换机;其中,第一智能NIC和第二智能NIC的每一个均包括简单存储节点,包括:到第一以太网交换机和第二以太网的上行链路;经由多个PCIe通道到多个PCIe交换机的下行链路,所述多个PCIe通道用于连接到所述存储设备和多个其他存储设备。5.如权利要求4所述的方法,其特征在于,还通过第二计算设备接收所述读取文件的请求,并且还被所述第二计算设备经由所述系统传输到所述存储设备;该第二计算设备是所述计算设备的备用或高可用性服务器。6.根据权利要求1所述的方法,还包括:通过所述计算设备存储由所述文件的文件名到与所述存储设备关联的当前物理块地址的映射;响应于检测到将所述文件从所述当前物理块地址移动到与所述存储设备相关联的新物理块地址的条件,更新所述文件的文件名到所述新物理块地址的映射。7.根据权利要求1所述的方法,还包括:通过所述存储设备从与所述存储设备分离的原始物理介质中获取所述文件;其中,所述文件包括先前基于纠错码(ECC)进行编码的压缩数据;将获取的文件作为只读副本存储在所述存储设备的物理介质上。8.根据权利要求1所述的方法,其中,存储在所述存储设备的文件格式包括如下的一个或多个:表示与文件相关联的起始位置的前同步码;文件的唯一文件标识符;文件的内容;表示与文件相关联的结束位置的后同步码;和用于验证文件内容的一致性的循环冗余校验(CRC)签名。
9.根据权利要求1所述的方法,其中所述第一存储设备不包括:执行ECC编码的模块或单元;动态随机存取存储器(DRAM)接口和通过所述DRAM接口访问的DRAM模块;和执行闪存转换层(FTL)功能的处理器,所述功能包括将逻辑块地址映射到物理块地址。10.一种用于便于在系统中数据访问的计算机系统,所述系统包括:处理器;和存储器,所述存储器连接到所述处理器并存储有指令,该指令在由所述处理器执行时使处理器执行一方法,其中,所述计算机系统包括存储设备,该方法包括:由存储设备接收读取存储在该存储设备的物理介质上的文件的请求;和由所述存储设备根据纠错码(ECC)对所述文件进行解码,得到ECC解码的数据,其中,所述ECC解码的数据随后被与所述存储设备关联的计算设备解压缩,并作为请求的文件返回。11.根据权利要求10所述的计算机系统,其中,基于第一协议从请求实体接收读取文件的请求,其中,在所述计算设备对所述ECC解码的数据进行解压缩之后,该方法还包括:将所述解压缩的数据作为请求的...

【专利技术属性】
技术研发人员:李舒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1