数据类型的分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39144530 阅读:13 留言:0更新日期:2023-10-23 14:56
本公开涉及数据类型的分类方法、装置、计算机设备及存储介质,包括:获取待访问数据集合,确定待访问数据集合内的每个待访问数据的访问次数;获取访问次数相同的第一待访问数据并统计第一待访问数据的目标个数;根据目标个数,确定待重新排序的待访问数据子集,并将重新排序后的待访问数据子集加入待访问数据集合,得到访问历史队列;根据重新排序次数,确定访问历史队列中的第一频次访问队列和第二频次访问队列;根据第一频次访问队列、第二频次访问队列对访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将第一预设位置之外的待访问数据作为第二类型数据。外的待访问数据作为第二类型数据。外的待访问数据作为第二类型数据。

【技术实现步骤摘要】
数据类型的分类方法、装置、计算机设备及存储介质


[0001]本公开涉及数据处理
,具体涉及数据类型的分类方法、装置、计算机设备及存储介质。

技术介绍

[0002]存储系统中冷数据一般指较长时间没有访问的数据,热数据指频繁访问的数据,在分布式存储系统中,存储往往分为由高速昂贵的SSD(Solid State Disk,固态硬盘)和RAM(Random Access Memory,随机存取存储器)构成的缓存层,以及低速廉价的HDD构成的永久存储层。
[0003]通常情况下缓存层仅仅存放访问频次较高的数据,获取更高的访问效率,永久存储层存储访问频次较低的数据,获取更好的经济效益,因此,为了提高不同类型数据的利用率,通常需要对冷热数据进行分类,然后基于分类好的热数据或冷数据,分别将其用到适用的场景中,实现数据的最大化利用。
[0004]当前对冷热数据分类的技术方案中,往往通过阈值或简单的LRU(Least Recently Used,最近最少使用)方法确定数据是冷数据还是热数据,这就需要频繁地对访问数据进行处理,当IO(Input/Output,输入/输出)数量较高时,导致服务器处理压力急剧增加,出现网络瘫痪的问题。

技术实现思路

[0005]有鉴于此,本公开提供了一种数据类型的分类方法、装置、计算机设备及存储介质,以解决当前对冷热数据分类的技术方案中,当IO数量较高时,导致服务器处理压力急剧增加,出现网络瘫痪的问题。
[0006]第一方面,本公开提供了一种数据类型的分类方法,该方法包括:
[0007]获取待访问数据集合,确定待访问数据集合内的每个待访问数据的访问次数;
[0008]获取访问次数相同的第一待访问数据并统计第一待访问数据的目标个数;
[0009]根据目标个数,确定待重新排序的待访问数据子集,并将重新排序后的待访问数据子集加入待访问数据集合,得到访问历史队列;
[0010]根据重新排序次数,确定访问历史队列中的第一频次访问队列和第二频次访问队列;
[0011]根据第一频次访问队列、第二频次访问队列对访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将第一预设位置之外的其他待访问数据作为第二类型数据。
[0012]在本公开实施例中,通过获取待访问数据集合,确定待访问数据集合内的每个待访问数据的访问次数;获取访问次数相同的第一待访问数据并统计第一待访问数据的目标个数;根据目标个数,确定待重新排序的待访问数据子集,并将重新排序后的待访问数据子集加入待访问数据集合,得到访问历史队列;根据重新排序次数,确定访问历史队列中的第
一频次访问队列和第二频次访问队列;根据第一频次访问队列、第二频次访问队列对访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将第一预设位置之外的其他待访问数据作为第二类型数据,这样本公开实施例可以根据各个访问数据的访问次数以及待重新排序的待访问数据子集,生成基于访问频次划分更细致的第一频次访问队列和第二频次访问队列,然后对各个待访问数据完成自适应的数据分类,从而充分利用存储资源,提高系统效率,减轻服务器处理压力,减少网络崩溃的概率。
[0013]在一种可选的实施方式中,将重新排序后的待访问数据子集加入待访问数据集合,得到访问历史队列,包括:
[0014]根据每个待访问数据的访问次数,对待访问数据进行排序,得到初始访问历史队列;
[0015]对待访问数据子集进行排序,并将排序后的待访问数据子集放入初始访问历史队列的第二预设位置,得到访问历史队列。
[0016]在本公开实施例中,通过将需要重新排序的待访问数据子集进行排序后加入到初始访问历史队列的第二预设位置,以实时更换访问频次最频繁的数据至第二预设位置,实现自适应的数据分类。
[0017]在一种可选的实施方式中,根据目标个数,确定待重新排序的待访问数据子集,包括:
[0018]根据目标个数,确定对应的标准差;
[0019]根据标准差和第一预设阈值,得到访问待访问数据的频次密集度;
[0020]根据频次密集度,确定待重新排序的待访问数据子集。
[0021]在本公开实施例中,根据目标个数对应的标准差和设定的第一预设阈值确定待访问数据的频次密集度,这样便于确定需要对待访问数据集合内的哪些待访问数据进行重新排序。
[0022]在一种可选的实施方式中,根据频次密集度,确定待重新排序的待访问数据子集,包括:
[0023]在确定频次密集度为第一频次密集类型的情况下,保持待访问数据在初始访问历史队列中的当前排序;
[0024]在确定频次密集度为第二频次密集类型的情况下,根据目标个数确定对应的均值;
[0025]根据目标个数、均值和标准差,得到待重新排序的第一待访问数据子集,并将第一待访问数据子集的数据类型设置为预设类型;
[0026]在确定频次密集度为第三频次密集类型的情况下,根据目标个数、均值和标准差,得到待重新排序的第二待访问数据子集,并将第二待访问数据子集的数据类型设置为预设类型。
[0027]在本公开实施例中,通过根据频次密集度的类型确定对应的待访问数据子集,进而根据每种频次密集度的类型下的待访问数据子集实现数据分类,充分利用了存储资源。
[0028]在一种可选的实施方式中,根据重新排序次数,确定访问历史队列中的第一频次访问队列和第二频次访问队列,包括:
[0029]当重新排序次数大于第二预设阈值的情况下,将被归类到预设类型的次数为第一次数的第二待访问数据填充到第一频次访问队列,生成第一频次访问队列,将被归类到预设类型的次数为第二次数的第三待访问数据填充到第二频次访问队列,生成第二频次访问队列。
[0030]在本公开实施例中,根据目标个数确定数据类型设置为预设类型的第二访问数据,进而由重新排序次数结合被归类到预设类型的次数,去将对应的待访问数据分别填充第一频次访问队列和第二频次访问队列,这样本公开实施例以第一频次访问队列和第二频次访问队列增加待访问数据活跃度类型,提高后续的分类准确性。
[0031]在一种可选的实施方式中,根据第一频次访问队列、第二频次访问队列对访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将第一预设位置之外的其他待访问数据作为第二类型数据,包括:
[0032]获取对第一频次访问队列内的各个待访问数据赋予的第一权重;
[0033]获取对第二频次访问队列内的各个待访问数据赋予的第二权重;
[0034]根据第一权重和第一频次访问队列内各个待访问数据的被访问时间,得到第一频次访问队列内各个待访问数据的访问次数,根据第二权重和第二频次访问队列内各个待访问数据的被访问时间,得到第二频次访问队列内各个待访问数据的访问次数;
[0035]根据第一频次访问队列内各个待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据类型的分类方法,其特征在于,所述方法包括:获取待访问数据集合,确定所述待访问数据集合内的每个待访问数据的访问次数;获取访问次数相同的第一待访问数据并统计所述第一待访问数据的目标个数;根据所述目标个数,确定待重新排序的待访问数据子集,并将重新排序后的待访问数据子集加入所述待访问数据集合,得到访问历史队列;根据重新排序次数,确定所述访问历史队列中的第一频次访问队列和第二频次访问队列;根据所述第一频次访问队列、所述第二频次访问队列对所述访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将所述第一预设位置之外的其他待访问数据作为第二类型数据。2.根据权利要求1所述的方法,其特征在于,所述将重新排序后的待访问数据子集加入所述待访问数据集合,得到访问历史队列,包括:根据每个所述待访问数据的所述访问次数,对所述待访问数据进行排序,得到初始访问历史队列;对所述待访问数据子集进行排序,并将排序后的待访问数据子集放入所述初始访问历史队列的第二预设位置,得到所述访问历史队列。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标个数,确定待重新排序的待访问数据子集,包括:根据所述目标个数,确定对应的标准差;根据所述标准差和第一预设阈值,得到访问所述待访问数据的频次密集度;根据所述频次密集度,确定待重新排序的待访问数据子集。4.根据权利要求3所述的方法,其特征在于,所述根据所述频次密集度,确定待重新排序的待访问数据子集,包括:在确定频次密集度为第一频次密集类型的情况下,保持所述待访问数据在所述初始访问历史队列中的当前排序;在确定频次密集度为第二频次密集类型的情况下,根据所述目标个数确定对应的均值;根据所述目标个数、所述均值和所述标准差,得到所述待重新排序的第一待访问数据子集,并将所述第一待访问数据子集的数据类型设置为预设类型;在确定频次密集度为第三频次密集类型的情况下,根据所述目标个数、所述均值和所述标准差,得到所述待重新排序的第二待访问数据子集,并将所述第二待访问数据子集的数据类型设置为预设类型。5.根据权利要求1所述的方法,其特征在于,所述根据重新排序次数,确定所述访问历史队列中的第一频次访问队列和第二频次访问队列,包括:当重新排序次数大于第二预设阈值的情况下,将被归类到所述预设类型的次数为第一次数的第二待访问数据填充到所述第一频次访问队列,生成所述第一频次访问队列,将被归类到所述预设类型的次数为第二次数的第三待访问数据填充到所述第二频次访问队列,生成所述第二频次访问队列。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一频次访问队列、所述第
二频次访问队列对所述访问历史队列内的所有待访问数据进行重新排序,将位于队列第一预设位置处的待访问数据作为第一类型数据,将所述第一预设位置之外的其他待访问数据作为第二类型数据,包括:获取对所述第一频次访问队列内的各个待访问数据赋予的第一权重;获取对所述第二频次访问队列内的...

【专利技术属性】
技术研发人员:雷皓鑫方浩
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1