一种热点数据识别方法及装置制造方法及图纸

技术编号:4217302 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种热点数据识别方法及装置,包括:根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值;当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒;将所述热一级颗粒划分为二级颗粒;在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息;根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值;当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。本发明专利技术实施例可以利用有限的内存空间完成对热点数据的识别。

【技术实现步骤摘要】

本专利技术涉及存储领域,尤其涉及一种热点数据识别方法及装置
技术介绍
在计算机的使用过程中会产生大量数据,这些数据都需要被存储在磁盘上以备其 他业务使用,许多业务在访问存储系统时,对随机IO并发性都有很高的要求。为满足业务 应用的要求,提高存储系统的每秒钟处理IO请求(I/Oper second, IOPS)的能力,引入了热 点数据迁移、二级缓存等新技术,而这些技术都依赖于热点数据识别技术。 现有的热点数据识别技术主要包括,将存储区域划分为若干数据块,对所有数据 块做精细化统计,统计若干块被访问的次数,根据被访问的次数计算被访问的频率,再根据 块的被访问的频率判断其是否是热点数据区域。例如,以块的大小为32M为例,一个存储空 间为2T的存储区域具有2T/32M = 64K个块,如果一个存储阵列同时存在2K个这样的存储 区域,那么这个存储阵列的存储空间为2T*2K = 4P字节,假设块的管理单元是64字节,那 么管理4P存储空间需要的统计信息空间为2K*64K*64 = 8G字节。这些统计信息是存放在 高速介质上的,只有最近被访问的数据库的统计信息才会调入内存中,所以对统计信息而 言就需要支持换入换出机制。可见,现有的热点数据识别技术较难利用有限的内存空间完 成对热点数据的识别,统计信息必须采用换入换出方式实现数据的统计,降低了热点数据 识别的效率。
技术实现思路
本专利技术实施例提供了一种热点数据识别方法及装置,可以利用有限的内存空间完 成对热点数据的识别。 本专利技术实施例提供的热点数据识别方法,包括根据预置的第一统计表,获得当前 周期内存储区域中的一级颗粒的周期访问频率加权平均值; 当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确 定为热一级颗粒; 将所述热一级颗粒划分为二级颗粒; 在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息; 根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均 值; 当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。本专利技术实施例提供的热点数据识别装置,包括 第一计算模块,用于根据预置的第一统计表,获得当前周期内存储区域中的一级 颗粒的周期访问频率加权平均值; 第一确定模块,用于当所述一级颗粒的周期访问频率加权平均值达到第一阈值4时,将所述一级颗粒确定为热一级颗粒; 第二划分模块,用于将所述热一级颗粒划分为二级颗粒; 第二创建模块,用于在内存中创建第二统计表,所述第二统计表用于存储所述二 级颗粒的信息; 第二计算模块,用于根据所述第二统计表,获得下一个周期内所述二级颗粒的周 期访问频率加权平均值; 第二确定模块,用于当所述二级颗粒的周期访问频率加权平均值达到第二阈值 时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。 从以上技术方案可以看出,本专利技术实施例具有以下优点 本专利技术实施例不需要对所有数据块都做精细化的统计,采用分级的方法识别热点 数据,动态创建二级颗粒,根据与二级颗粒对应的第二统计表,计算该二级颗粒的周期访问 频率加权平均值,当该二级颗粒的周期访问频率加权平均值达到第二阈值时,将该二级颗 粒确定为热点数据区域,由于只有被确定为热一级颗粒的一级颗粒才被划分为二级颗粒, 而不属于热一级颗粒的一级颗粒则不会被划分为二级颗粒,相应的不属于热一级颗粒的一 级颗粒则不需要在内存中建立二级统计表进行管理,而一级颗粒不属于精细化的划分,所 以其统计表占用内存的资源较少,并且二级统计表是动态建立的,所以本专利技术实施例可以 利用有限的内存空间完成对热点数据的识别。附图说明 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。图1为本专利技术实施例中数据访问方法一个实施例示意图; 图2为本专利技术实施例中数据访问方法另一实施例示意图; 图3为本专利技术实施例中数据访问装置实施例的结构示意图; 图4为本专利技术实施例中数据访问装置另一个实施例的结构示意图。具体实施例方式下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显 然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施 例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属 于本专利技术保护的范围。 本专利技术实施例提供了一种热点数据识别方法及装置,可以利用有限的内存空间完 成对热点数据的识别。 请参阅图1,本专利技术实施例中数据处理方法一个实施例包括 S100、根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访 问频率加权平均值; 众所周知,计算机硬盘是通过磁介质来存储信息的。 一块计算机硬盘内部包含若干个磁盘片,磁盘片上的磁涂层是由数量众多的、体积极为细小的颗粒组成,若干个颗粒组 成一个记录单元来记录1比特(bit)信息,即0或1 ; 本专利技术实施例预先将存储区域划分为若干个一级颗粒,每一个一级颗粒可以被看 做一个单独的数据块,同时,在内存中创建一级颗粒对应的第一统计表,第一统计表可以包 括一级颗粒的被访问次数、访问频率、历史周期访问频率加权平均值等信息; 具体的,步骤S100可以按照以下步骤执行 a、统计当前周期内,一级颗粒的访问频率,需要说明的是,周期的大小是预先设定 的,并且可以根据业务需要进行动态调整; b、根据一级颗粒的访问频率,以及第一统计表中存储的历史周期访问频率加权平 均值等信息计算获得当前周期内一级颗粒的周期访问频率加权平均值,具体的计算公式如 下bn = an+kan—,k、—2+.........+k(n—"a" cn = bn/ (l+k+k2+.........+kn—工); 其中,a表示当前周期内数据块的访问频率,b表示数据块所有历史访问频率的加 权值,c表示数据块所有历史访问频率的加权平均值,下标n表示第n个统计周期,k表示加 权系数,其取值范围为0《k < l,k取值越小, 受以前访问频率影响就越小,受当前周期 访问频率影响就越大,热点数据识别就越灵敏,但波动也比较大;反之k取值越大,数据块 冷热变化就越平缓。 下表是加权系数与历史访问记录的关系 <table>table see original document page 6</column></row><table> S105、当一级颗粒的周期访问频率加权平均值达到第一阈值时,将该一级颗粒确 定为热一级颗粒; 具体的,这里的第一阈值是指一级颗粒的热点门限值,可以根据数据块热点门限 公式,计算出一级颗粒的热点门限值,具体的计算公式属于现有技术,这里不再赘述; 如果该一级颗粒的周期访问频率加权平均值达到第一阈值,则将其标识为热一级 颗粒。 S110、将该热一级颗粒划分为二级颗粒; 与一级颗粒不同的是,二级颗粒是动态划分的,只有被确定为热一级颗粒的一级颗粒,才会被划分为若干个二级颗粒本文档来自技高网...

【技术保护点】
一种热点数据识别方法,其特征在于,包括:根据预置的第一统计表,获得当前周期内存储区域中的一级颗粒的周期访问频率加权平均值;当所述一级颗粒的周期访问频率加权平均值达到第一阈值时,将所述一级颗粒确定为热一级颗粒;将所述热一级颗粒划分为二级颗粒;在内存中创建第二统计表,所述第二统计表用于存储所述二级颗粒的信息;根据所述第二统计表,获得下一个周期内所述二级颗粒的周期访问频率加权平均值;当所述二级颗粒的周期访问频率加权平均值达到第二阈值时,将所述二级颗粒确定为热点数据区域,所述热点数据区域中的数据为热点数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:董浩龚涛张翔杜小华
申请(专利权)人:成都市华为赛门铁克科技有限公司
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1