一种存储设备及数据处理方法技术

技术编号:13059744 阅读:65 留言:0更新日期:2016-03-24 00:01
本发明专利技术涉及数据存储技术领域,尤其涉及一种存储设备及数据处理方法,通过在存储设备内添加了比较匹配模块,从而加速数据在存储设备内部进行查找、识别、比较或匹配等任务,缓解中央处理器的工作负载,提高存储设备进行数据处理的性能。

【技术实现步骤摘要】

本专利技术涉及数据存储
,尤其涉及。
技术介绍
数据信息时代,互联网已成为人们日常生活中不可缺少的一部分,互联网应用种类繁多,包括Facebook、MySpace、QQ为代表的社会关系网络、Youtube为代表的视频共享应用以及以Google、Yahoo、Baidu为代表的搜索引擎应用等。不断增长的互联网用户带来了爆炸式增长的数据(视频、图片、blog等)。处理这些数据的技术路线从本质上可以分为两个方面:海量数据的存储管理技术以及针对海量数据的处理技术(日志分析、搜索引擎应用等)。互联网庞大的数据量使我们想到把并行计算的思想应用到商业集群上,云计算思想应运而生。Google是云计算的领军力量,它使用Hadoop框架每天处理超过20PB的数据量。为了能够处理大量的原始数据,Google设计了一个新的抽象模型-映射归约(MapReduce),映射归约名字来源于这个模型中的两项核心操作:映射(Map)和归约(Reduce),实现流程图如图1所示。首先用户程序所要处理的数据31由存储网络中导入并被分成若干片段(split)(这里以6个片段为例,分别为片段321、片段322、片段323、片段324、片段325、片段326),然后在所有机器(machine)中选出一个作为主机30 (master),即主控制程序,其他的作为由主机分配任务的从机(workers)即工作程序。主机为空闲的从机分配一个映射任务,如映射任务331,将分片的原始数据进行映射处理,抽取键(key)/值(value)对,将中间数据341保存在从机的本地存储中,并由从机将中间数据的位置信息传给主机30,主机30再将传递的数据信息分发给负责归约任务的从机,然后从机远程读取中间数据341、中间数据342和中间数据343,并对这些键/值进行排序,分配了归约任务的从机遍历排序后的中间数据,并将同一个键对应的值传给用户定义的归约函数351 (或归约函数352),进行归约处理,最后将该区块追加到最后的输出文件36中。映射归约编程模型的核心思想就是利用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理TB级别的海量数据。传统的在存储设备,如图2所示的是固态硬盘的内部结构图,主微控制器1 一般通过缓存芯片2以加速闪存芯片3阵列的数据读取,提高性能。当系统CPU需要从固态硬盘中4导入数据时,主微控制器1接收到命令并将指定的数据从闪存芯片阵列3中读取出来,并通过对外接口 5传输给上级系统,主微控制器1并不对数据做任何处理。又比如磁盘的内部结构如图3所示,其结构与固态硬盘相似,包括磁盘6、前置放大器7、读写通道8、磁盘主微控制器9、代码区和数据缓冲区10、随动控制和解调器11、马达控制器12、马达13和对外接口 14。磁盘阵列,S卩“独立磁盘构成的具有冗余能力的阵列”。磁盘阵列是由很多价格较便宜的磁盘,组合成一个容量巨大的磁盘组,磁盘阵列有多个端口可以被不同系统或不同端口连接,一个系统连接阵列的不同端口可提升传输速度。如图4所示的独立磁盘冗余阵列内部结构简图,采用性能比磁盘和固态硬盘中的主微控制器强的独立磁盘冗余阵列控制器15,例如采用Intel处理器;另外还包括多个磁盘16以及系统接口 17。网络附属存储(Network Attached Storage,NAS)是具备资料存储功能的装置,因此也称为“网络存储器”。它是一种专用数据存储服务器,因此网络附属存储内部处理器是性能更高的服务器级别的处理器。所以,当终端系统CPU做一些轻量级的数据处理操作时,这些存储设备中的主微控制器不在做数据处理时都处于空闲状态,因此不论对于上级系统CPU还是存储设备中的主微控制器,在性能和功耗上都是一种浪费。从上面的简单介绍中可以看出,上述由上千个商用机器组成的大型集群所处理的任务都是由商用机器的CPU来运行处理,而这些任务都是一些轻量级的无需算术逻辑运算单元(Arithmetic and Logic Unit,简称ALU)大量参与的工作(例如映射任务和归约任务),首先在功耗上是浪费的,其次在性能上也是浪费的(高性能的ALU并不参与大量计算),因此整个集群的功耗和成本都是很高的。传统的,在存储设备内进行数据处理的方法中,所有的数据处理操作都由存储设备中的主微控制器来完成,负载大,存储设备性能会受到影响。如果采用可编程逻辑阵列(Field Programmable Gate Array,简称FPGA)来实现数据查找、识别、比较或匹配等操作,效率低,在性能上是一种浪费;如果采用专用集成电路(Applicat1n SpecificIntegrated Circuit,简称ASIC)来实现,成本也相对较高。
技术实现思路
针对上述问题,本专利技术提出了一种存储设备,应用于包括上级系统的计算机架构中,所述存储结构包括:存储阵列,预存有待处理数据;主微控制器,分别与所述上级系统和所述存储阵列连接,以用于接收所述上级系统下发的数据处理命令;以及比较匹配模块,与所述主微控制器和所述存储阵列连接;其中,所述比较匹配模块根据所述数据处理命令对所述存储阵列中存储的所述待处理数据进行处理,并通过所述主微控制器将处理结果反馈至所述上级系统。上述的存储设备,其中,所述比较匹配模块为硬件模块。上述的存储设备,其中,所述比较匹配模块集成在所述主微控制器中。上述的存储设备,其中,所述比较匹配模块为内容可寻址存储器或三重内容可寻址存储器。上述的存储设备,其中,所述数据处理命令为数据查找命令、数据识别命令、数据比较命令或数据匹配命令。上述的存储设备,其中,所述存储设备包括磁盘、固态硬盘、网络附属存储或独立磁盘冗余阵列。上述的存储设备,其中,所述主微控制器与所述上级系统通过对外接口连接,以将所述处理结果发送至所述上级系统。—种数据处理方法,应用于上述的存储设备中,所述方法包括:S1:所述上级系统发送数据处理命令至所述存储设备;S2:所述存储设备中的所述主微控制器接收所述数据处理命令,并根据所述数据处理命令判断是否需要对所述存储阵列中的数据进行处理操作;若判断结果为是,执行S3;否则,执行S5;S3:所述主微控制器将所述数据处理命令发送给所述比较匹配模块;S4:所述比较匹配模块接收并根据所述数据处理命令,对所述存储阵列中的数据进行处理,并所述主微控制器将处理结果返回至所述上级系统;S5:所述主微控制器在本地进行其他数据处理任务,同时将其他数据处理结果返回至所述上级系统。上述的数据处理方法,其中,所述数据处理命令为数据查找命令、数据识别命令、数据比较命令或数据匹配命令。上述的数据处理方法,其中,所述主微控制器将所述处理结果通过对外接口与所述上级系统连接。上述的数据处理方法,其中,所述比较匹配模块为内容可寻址存储器或三重内容可寻址存储器。综上所述,本专利技术提出了,在存储设备内添加了比较匹配模块,可以用软件实现,也可以用硬件实现,从而加速数据在存储设备内部进行查找、识别、比较或匹配等任务,缓解中央处理器的工作负载,提高存储设备进行数据处理的性能。【附图说明】图1是本专利技术现有技术信息处理的信息走向图;图2是本专利技术现有技术固态硬盘的内部结构示意图;图3是本发本文档来自技高网
...

【技术保护点】
一种存储设备,其特征在于,应用于包括上级系统的计算机架构中,所述存储结构包括:存储阵列,预存有待处理数据;主微控制器,分别与所述上级系统和所述存储阵列连接,以用于接收所述上级系统下发的数据处理命令;以及比较匹配模块,与所述主微控制器和所述存储阵列连接;其中,所述比较匹配模块根据所述数据处理命令对所述存储阵列中存储的所述待处理数据进行处理,并通过所述主微控制器将处理结果反馈至所述上级系统。

【技术特征摘要】

【专利技术属性】
技术研发人员:景蔚亮陈邦明
申请(专利权)人:上海新储集成电路有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1