System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据识别方法及装置制造方法及图纸_技高网

数据识别方法及装置制造方法及图纸

技术编号:41418224 阅读:15 留言:0更新日期:2024-05-21 20:51
公开了数据识别方法及装置,涉及计算机领域。该数据方法包括:处理设备根据数据在第二时长的历史访问热度和数据在第一时长的访问信息确定该数据的数据热度,该第二时长与第一时长连续;以及,处理设备根据该数据热度确定数据为冷数据或热数据。由于历史访问热度指示了数据在第一时长之前的数据热度,因此,处理设备无需对第二时长内的访问信息进行重新统计,减少了数据识别所需的统计量,有利于提升数据热度识别的效率,从而快速的确定数据为冷数据或热数据。而且,处理设备利用数据在第一时长的访问信息(增量访问信息)来确定数据热度,使得数据热度更贴近数据访问过程中数据的真实访问情况,有利于提升数据热度的识别准确率。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及数据识别方法及装置


技术介绍

1、随着互联网服务等技术的快速发展和广泛应用,数据呈爆炸性增长。由于数据的访问频次不同,将所有数据存储在相同的存储介质中,存在存储资源的浪费,为此,需对数据的冷热进行区分,以将冷数据和热数据存储在不同的存储介质中。

2、目前,存储系统使用apache atlas、qumulo等数据管理软件对数据的冷热进行分析,从而将冷数据和热数据存储到不同的存储位置。然而,这些数据管理软件会对存储系统保存的所有数据进行遍历后,获取数据的访问频次以确定数据的冷热,导致冷热分析所需的数据统计量较大,数据的冷热分析效率受到影响。因此,如何提高数据的冷热分析效率成为目前亟需解决的问题。


技术实现思路

1、本申请提供了数据识别方法及装置,以解决冷热分析效率较低的问题。

2、第一方面,本申请提供了一种数据识别方法,该数据识别方法可应用于数据识别系统或应用于支持该数据识别系统实现数据识别方法的处理设备,例如该处理设备包括芯片。这里以处理设备执行本实施例提供的数据识别方法为例进行说明,该数据识别方法包括:首先,处理设备获取第一数据在第一时长内的访问信息。其次,处理设备根据访问信息和第一数据在第二时长内的历史访问热度,获取第一数据的数据热度;其中,第二时长与第一时长连续。最后,处理设备将数据热度和设定的条件进行判断,以确定第一数据为热数据或冷数据。

3、由于历史访问热度指示了数据在第一时长之前的数据热度,因此,处理设备无需对第二时长内的访问信息进行重新统计,减少了数据识别所需的统计量,有利于提升数据热度识别的效率,从而快速的确定数据为冷数据或热数据。而且,处理设备利用数据在第一时长的访问信息(增量访问信息)来确定数据热度,使得数据热度更贴近数据访问过程中数据的真实访问情况,有利于提升数据热度的识别准确率。

4、在一种可选的实现方式中,该数据热度包括访问频次或访问间隔中至少一种;该访问频次为单位时间内第一数据被访问的次数;该访问间隔由第一时间差与统计周期之间的比值确定,第一时间差为:第一数据在第一时长内的最后访问时间与第一数据在所述第二时长内首次访问时间之间的差值。

5、在一种可选的实现方式中,处理设备获取第一数据在第一时长内的访问信息,包括:第一,处理设备获取日志。第二,处理设备从日志中确定第一数据在第一时长内的至少一个访问记录。第三。处理设备根据至少一个访问记录确定访问信息。

6、其中,上述日志包括至少一个数据在所述第一时长内的访问记录,该至少一个数据包括所述第一数据

7、由于日志中记载了至少一个数据在第一时长内的访问记录,因此,处理设备直接从日志中至少一个访问记录确定访问信息,提高了处理设备获取访问信息的效率。且访问信息仅为第一时长内的数据,减少了数据的统计量,进一步提高了处理设备对数据进行识别的效率。

8、在一种可选的实现方式中,处理设备按照设定的周期,扫描存储设备中保存的第一数据的元数据,获取第一时长内的第一访问记录。以及,处理设备将第一访问记录写入日志。

9、示例1,处理设备按照设定的周期对存储设备中保存的第一数据的元数据进行全量扫描,处理设备将全量扫描得到的元数据与数据库中存储的历史元数据进行比对,确定在第一时长内新增的元数据,处理设备根据新增的元数据确定第一时长内的第一访问记录。

10、示例2,处理设备按照设定的周期对存储设备中保存的第一数据的元数据进行定量扫描,该定量扫描用于指示仅扫描在该设定的周期内更新的元数据,得到第一时长内新增的元数据,处理设备根据新增的元数据确定第一时长内的第一访问记录。

11、由于元数据准确的记载了数据的访问时间、访问次数等信息,因此,处理设备根据该访问时间、访问次数能准确的得到第一时长内的访问记录。进而处理设备基于该访问记录得到的日志,准确的记录了数据的访问信息。

12、在一种可选的实现方式中,处理设备通过指示存储设备对io流中的数据进行识别,若确定第一数据的访问命令,记录确定第一数据的访问命令的时间为第一时间,该第一时间指示了访问命令对应的第二访问记录的访问时间。处理设备指示存储设备将该第二访问记录写入日志。

13、处理设备在不能从元数据中获取访问时间、访问次数等信息的情况下,指示存储设备对其保存的数据进行io trace的方式来获取访问时间、访问次数等信息对应的访问记录,从而将该访问记录写入日志,进而处理设备根据该日志指示的访问记录,进行数据热度计算,并得到对应的数据识别结果,增强了处理设备进行数据识别的可行性。

14、在一种可选的实现方式中,处理设备根据访问信息和第一数据的历史访问热度,获取第一数据的数据热度,包括:处理设备判断第二时间差是否处于设定的时长范围。其中,第二时间差为:第一数据在第一时长内的首次访问时间与第一数据在所述第二时长内最后访问时间之间的差值。

15、当处理设备确定该第二时间差处于设定的时长范围,处理设备根据访问信息和历史访问信息,获取第一数据的访问频次,该历史访问信息用于指示:第一数据在第二时长内的访问记录。

16、相较于处理设备直接将统计时长内的进行数据热度计算,当第二时间差较大时,得到的数据热度与历史访问热度的区别较大,该数据热度不能准确体现第一数据的实际情况的问题,处理设备通过判断第二时间差与设定的时长范围的关系,确定该第二时间差处于设定的时长范围内,处理设备再利用该访问信息确定数据热度,该数据热度能更贴近历史访问热度以及符合在统计时长内第一数据的真实情况,进而提高处理设备计算访问频次的准确度。

17、当处理设备确定该第二时间差不处于设定的时长范围时,处理设备将该访问信息写入处理设备中的存储器,或者处理设备将该访问信息写入与处理设备连接的存储设备。处理设备通过判断第二时间差与设定的时长范围的关系,确定该第二时间差不处于设定的时长范围内,处理设备将该访问信息作为下次数据识别的历史访问信息,即第二时长中的访问信息。处理设备执行下次数据识别过程时,可直接从存储器中获取该访问信息,提高了处理设备执行下次数据识别过程的效率。

18、在一种可能的实现方式中,处理设备根据访问信息和历史访问热度对应的历史访问信息,获取第一数据的数据热度,包括:处理设备将访问信息和历史访问信息输入预设的热度模型,输出第一数据的数据热度。

19、在一种可能的实现方式中,该数据识别方法还包括:处理设备将数据热度写入第一数据的元数据。如处理设备将该数据热度写入元数据的xattr属性中。

20、处理设备将数据热度或第一数据为热数据或冷数据写入元数据中,便于后续直接从元数据中获取对应的数据热度,或该元数据对应的数据为热数据或冷数据,提高了数据的获取效率。处理设备根据第一数据的数据热度或识别结果将数据存储在不同的存储介质中,例如对于识别结果为热数据的第一数据,处理设备将该第一数据写入固态硬盘。对于识别结果为冷数据的本文档来自技高网...

【技术保护点】

1.一种数据识别方法,其特征在于,所述方法由处理设备执行,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数据热度包括访问频次或访问间隔中至少一种;

3.根据权利要求1或2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至3中任一项所述的方法,其特征在于,

7.根据权利要求6所述的方法,其特征在于,所述根据所述访问信息和所述历史访问热度对应的历史访问信息,获取所述第一数据的数据热度,包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:

10.一种数据识别装置,其特征在于,包括:

11.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机指令;所述处理器执行所述计算机指令时,实现权利要求1至9中任一项所述的方法。

12.一种数据识别系统,其特征在于,包括存储设备和处理设备,所述存储设备中存储有数据,所述处理设备对所述存储设备中存储的数据进行处理,实现权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序或指令,当所述计算机程序或指令被处理设备执行时,实现权利要求1至9中任一项所述的方法。

14.一种计算机程序产品,包括计算机程序或指令,其特征在于,当所述计算机程序或指令在被处理设备执行时,实现权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种数据识别方法,其特征在于,所述方法由处理设备执行,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述数据热度包括访问频次或访问间隔中至少一种;

3.根据权利要求1或2所述的方法,其特征在于,

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至3中任一项所述的方法,其特征在于,

7.根据权利要求6所述的方法,其特征在于,所述根据所述访问信息和所述历史访问热度对应的历史访问信息,获取所述第一数据的数据热度,包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:褚乐天周琪璋方维胡刚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1