【技术实现步骤摘要】
在基于NAND的读取源存储中提高大数据分析吞吐量的方法和系统
[0001]本公开总体上涉及数据存储领域。更具体地,本公开涉及用于提高基于NAND的读取源存储中的大数据分析的吞吐量的方法和系统。
技术介绍
[0002]互联网和电子商务的激增继续创建大量的数字内容。已经创建了各种分布式存储系统来访问和存储这些数字内容。在一些读取密集型场景中,存储系统可能会存储数据的原始版本,在存储系统其中已存储的原始数据经常被读取或访问,但不一定进行更新。读取密集型方案的一个示例是“大数据”分析,其中涉及检查大量不同的数据集(即大数据),以识别相关信息,例如隐藏模式、市场趋势、未知相关性以及可能与用户相关的任何信息。大数据分析需要经常读取大量数据,而源数据则保持不变。为了加速由多个数据分析服务器执行的数据分析处理,通常将中间结果存储在存储样式的介质中。但是,这可能会导致通过以太网长距离传输大量数据的相当大的开销。为了避免这种开销,通常会复制读取源以在每个站点上形成本地副本,因此,低成本和高吞吐量都是存储源数据副本的实际和基本要求。
[0003]在当前的大数据分析中,常规的分布式存储系统可用于为原始数据源的多个存储副本提供所需的存储。但是,使用常规的分布式存储系统可能会导致一些挑战和效率低下,其中包括:昂贵地部署由数十个计算服务器和存储服务器(包括网络)组成的整个分布式存储系统;数据中心中昂贵的机架空间;电力成本高;并且访问存储在存储服务器中的副本的延迟高。
[0004]随着大数据分析的继续增长,常规分布式存储系统的低效率 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的用于在存储设备中便于数据访问方法,该方法包括:由存储设备接收读取存储在该存储设备的物理介质上的文件的请求;和由所述存储设备根据纠错码(ECC)对所述文件进行解码,得到ECC解码的数据;其中,所述ECC解码的数据随后被与所述存储设备关联的计算设备解压缩,并作为请求的文件返回。2.根据权利要求1所述的方法,其中,基于第一协议从请求实体接收读取文件的请求,其中,在所述计算设备对所述ECC解码的数据进行解压缩之后,该方法还包括:将所述解压缩的数据作为请求的文件返回至所述请求实体,而不执行任何ECC编码。3.根据权利要求1所述的方法,其中解压缩所述ECC解码的数据由所述计算设备的并行解压缩引擎执行。4.如权利要求1所述的方法,其特征在于,所述读取文件的请求由所述计算设备接收并由所述计算设备通过一系统发送到存储设备,该系统包括以下至少一个:第一以太网交换机和第二以太网交换机;第一智能网络接口卡(NIC)和第二智能网络接口卡(NIC);和多个外围高速互连(PCIe)交换机;其中,第一智能NIC和第二智能NIC的每一个均包括简单存储节点,包括:到第一以太网交换机和第二以太网的上行链路;经由多个PCIe通道到多个PCIe交换机的下行链路,所述多个PCIe通道用于连接到所述存储设备和多个其他存储设备。5.如权利要求4所述的方法,其特征在于,还通过第二计算设备接收所述读取文件的请求,并且还被所述第二计算设备经由所述系统传输到所述存储设备;该第二计算设备是所述计算设备的备用或高可用性服务器。6.根据权利要求1所述的方法,还包括:通过所述计算设备存储由所述文件的文件名到与所述存储设备关联的当前物理块地址的映射;响应于检测到将所述文件从所述当前物理块地址移动到与所述存储设备相关联的新物理块地址的条件,更新所述文件的文件名到所述新物理块地址的映射。7.根据权利要求1所述的方法,还包括:通过所述存储设备从与所述存储设备分离的原始物理介质中获取所述文件;其中,所述文件包括先前基于纠错码(ECC)进行编码的压缩数据;将获取的文件作为只读副本存储在所述存储设备的物理介质上。8.根据权利要求1所述的方法,其中,存储在所述存储设备的文件格式包括如下的一个或多个:表示与文件相关联的起始位置的前同步码;文件的唯一文件标识符;文件的内容;表示与文件相关联的结束位置的后同步码;和用于验证文件内容的一致性的循环冗余校验(CRC)签名。
9.根据权利要求1所述的方法,其中所述第一存储设备不包括:执行ECC编码的模块或单元;动态随机存取存储器(DRAM)接口和通过所述DRAM接口访问的DRAM模块;和执行闪存转换层(FTL)功能的处理器,所述功能包括将逻辑块地址映射到物理块地址。10.一种用于便于在系统中数据访问的计算机系统,所述系统包括:处理器;和存储器,所述存储器连接到所述处理器并存储有指令,该指令在由所述处理器执行时使处理器执行一方法,其中,所述计算机系统包括存储设备,该方法包括:由存储设备接收读取存储在该存储设备的物理介质上的文件的请求;和由所述存储设备根据纠错码(ECC)对所述文件进行解码,得到ECC解码的数据,其中,所述ECC解码的数据随后被与所述存储设备关联的计算设备解压缩,并作为请求的文件返回。11.根据权利要求10所述的计算机系统,其中,基于第一协议从请求实体接收读取文件的请求,其中,在所述计算设备对所述ECC解码的数据进行解压缩之后,该方法还包括:将所述解压缩的数据作为请求的...
【专利技术属性】
技术研发人员:李舒,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。