一种基于K-means的能耗感知的数据分类方法技术

技术编号:20746285 阅读:24 留言:0更新日期:2019-04-03 10:34
本发明专利技术涉及一种基于K‑means的能耗感知的数据分类方法,包括:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K‑means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。本发明专利技术通过提取数据的潮汐特性和季节性特性,利用K‑means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低。

【技术实现步骤摘要】
一种基于K-means的能耗感知的数据分类方法
本专利技术属于计算机数据管理
,具体涉及一种基于K-means的能耗感知的数据分类方法。
技术介绍
近年来随着互联网数据量的爆发式增长,数据以云存储的方式进行集中管理成为了一种安全,可靠的通用方式,然而由此也带来了另外一个严峻的问题:数据中心消耗着巨大的电力资源,大大提高了数据中心的运营成本的同时还会对环境产生恶劣的影响。云存储系统消耗着数据中心30%~40%的能量,因此如何降低云存储系统中的能耗是一个迫切需要解决的问题。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于K-means的能耗感知的数据分类方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种基于K-means的能耗感知的数据分类方法,包括:提取数据的潮汐特性和季节性特性;利用K-means算法对数据进行聚类存储。进一步地,所述数据分类方法具体为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。进一步地,分类所基于的数据集表示为D={d1,d2,…,dm},数据集的大小为m,m为正整数。进一步地,数据的潮汐特性表示为其中cxi=[pi,1vi,1pi,2vi,2…pi,zvi,z],其中z为数据所涉及到的周次个数,z为正整数。进一步地,数据的季节性特性表示为假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性用Sei=[se1,se2,…,se4*y]表示。进一步地,在所述数据分类方法中,根据数据的季节性特性的提取算法SCEA针对每一个数据构建相应的季节性特性数组。进一步地,在所述的分类方法中,提取数据的季节性特性后,利用K-means算法将数据分成5类:冬季、秋季、夏季、春季、其他。进一步地,在所述的分类方法中,针对不同的数据类别,通过数据的潮汐特性提取算法TCEA,提取数据的潮汐特性,构建一个数组存储数据的潮汐特性。进一步地,在所述的分类方法中,提取数据的潮汐特性后,利用K-means算法将数据分成3类:与工作相关的数据、与娱乐相关的数据、其他数据。进一步地,在所述的分类方法中,数据被分成5大类和15小类,每一个大类包含3个小类,相应地将存储系统也划分成5个大存储区和15个小存储区。本专利技术提供的基于K-means的能耗感知的数据分类方法,通过提取数据的潮汐特性和季节性特性,利用K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果,能耗低,可以很好地满足实际应用的需要。附图说明图1为本专利技术的流程图;图2为高速磁盘中的系统利用率是系统总体利用率的1.6倍的实验结果图;图3为高速磁盘中的系统利用率是系统总体利用率的1.8倍的实验结果图;图4为高速磁盘中的系统利用率是系统总体利用率的2.0倍的实验结果图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出的一种基于K-means的能耗感知的数据分类方法,是在基于数据的潮汐特性和季节性特性提取算法的基础上展开深入的。因此,下面在阐述数据的潮汐特性提取算法和数据的季节性特征提取算法的基础上对基于K-means的能耗感知的数据分类方法(简称K-ear)进行描述。在描述下述算法之前,对如下词汇进行定义和详细描述:代表数据集(RepresentationDataSet):D={d1,d2,…,dm}分类基于的代表数据集,数据集的大小为m,m为正整数,上述分类的示例中m=70。数据的潮汐特性(DataTidalCharacteristics):其中cxi=[pi,1vi,1pi,2vi,2…pi,zvi,z]其中z为样本数据所涉及到的周次个数(一般来说一年有52周),z为正整数。数据的季节性特性(DataSeasonalCharcteristics):利用进行描述m个数据的季节特性,m为正整数,假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性可以用Sei=[se1,se2,…,se4*y]表示。如图1所示,一种基于K-means的能耗感知的数据分类方法,基本步骤为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后根据数据的季节性特性的提取算法SCEA针对每一个数据构建相应的季节性特性数组,进而利用K-means的机器学习的算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其以周为单位的潮汐特性,并将与工作相关的数据(即以工作日为潮点,休息日为汐点的数据)、与娱乐相关的数据(即以休息日为潮点,以工作日为汐点)以及其他没有明显潮汐特性的数据分布在不同的存储区域。该数据分类方法具有降耗能力的主要原理是:基于磁盘的具有两种转速(高速和低速)的假设前提下,高速状态下具有高转速,快响应和高能耗的特点。而低速状态下则具有低转速,慢响应和低能耗的特点。而根据数据的季节性特性和潮汐特性进行分类存储则可以根据特定的时间段时不同的数据特性,在不同的区域实施不同的能耗模式,以牺牲微量的系统性能,在满足用户QoS要求的前提下,尽可能地减少磁盘空转所带来的能耗损失。例如在春季的工作时段中,整个存储系统的磁盘的能耗模式为:夏季特性、秋季特性和冬季特性的存储区域因数据的访问量极小,实施低能耗模式,减少系统的空转时间。而具体到春季特性和其他特性的存储区域,则将存储与娱乐相关数据的存储区域实施低能耗模式,以减少系统空转的现象,达到降耗的效果。本专利技术在现有存储系统中数据在时间访问上具有潮汐特性和季节性特性的基础上,通过提取数据的潮汐特性和季节性特性,利用机器学习的方法K-means对数据进行聚类存储,将具有相似访问特性的数据进行聚类存储,通过控制磁盘转速的方式,在不同的时间阶段上对不同的存储区域实施不同的能耗和性能模式,达到在季节和周的粒度范畴上的极佳降耗效果。基于K-means的能耗感知的数据分类方法(K-ear)的详细描述如下:为了验证本专利技术的方法的低能耗性能,与未分类的存储系统(Hadoop系统默认的方式)以及SEA算法进行了模拟对比实验。影响存储模式的能耗的参数如表1所示。表1能耗模型中所涉及的各个符号的含义表2对比实验中的通用参数值参数值参数值ph30.26J/秒il2.17J/秒ih5.26J/秒τl9.3Mb/秒τh31Mb/秒n1000pl21.33J/秒T31536000而其中H1~H8,L本文档来自技高网...

【技术保护点】
1.一种基于K‑means的能耗感知的数据分类方法,其特征在于,包括:提取数据的潮汐特性和季节性特性;利用K‑means对数据进行聚类存储。

【技术特征摘要】
1.一种基于K-means的能耗感知的数据分类方法,其特征在于,包括:提取数据的潮汐特性和季节性特性;利用K-means对数据进行聚类存储。2.根据权利要求1所述的基于K-means的能耗感知的分类方法,其特征在于,所述数据分类方法具体为:首先从存储系统中提取指定数据指定时间段中每一天的访问频次,然后针对每一个数据构建相应的季节性特性数组,进而利用K-means算法对数据进行聚类,设定相应的类别,具有不同季节特性的数据存储在不同的季节性存储区域,而针对不同的季节性存储区域中的数据进一步挖掘其潮汐特性,并将不同潮汐特性的数据分布在不同的存储区域。3.根据权利要求1-2所述的基于K-means的能耗感知的分类方法,其特征在于,分类所基于的数据集表示为D={d1,d2,…,dm},数据集的大小为m,m为正整数。4.根据权利要求1-3所述的基于K-means的能耗感知的分类方法,其特征在于,数据的潮汐特性表示为其中cxi=[pi,1vi,1pi,2vi,2…pi,zvi,z],其中z为数据所涉及到的周次个数,z为正整数。5.根据权利要求1-4所述的基于K-means的能耗感知的分类方法,其特征在于,数据的季节性特性表示为假设采集的是数据y年的季节性特性,每年有四个季节的搜索指数占比维度值,因此每个数据的季节性特性用Sei=...

【专利技术属性】
技术研发人员:游新冬吕学强董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1