一种基于访问热度的数据迁移部署方法技术

技术编号:21605378 阅读:23 留言:0更新日期:2019-07-13 18:10
本发明专利技术公开了一种基于访问热度的数据迁移部署方法,本发明专利技术对于已迁移部署于分布式平台的列式数据集,根据其运行时用户访问日志信息,使用预测算法预测下一时段的访问量分布;根据预测得到的访问量分布计算出各个字段的访问次数排序;对预测访问次数最高的一列的字段的数据值的分布重新划分数据子区域,使得该字段的访问次数被均匀分配到新的数据子区域内;系统再根据访问次数最高的列重新划分的数据区域切分数据并在分布式平台上更新其数据部署。本发明专利技术结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移部署,使得原始数据集访问热度最高列的访问热度被负载均衡到各个数据节点上,以实现数据集在分布式平台上的综合访问性能最佳。

A Data Migration Deployment Method Based on Access Heat

【技术实现步骤摘要】
一种基于访问热度的数据迁移部署方法
本专利技术涉及数据处理领域,具体涉及一种基于访问热度的数据迁移部署方法。
技术介绍
随着计算机与信息技术的广泛普及应用,数据信息规模在迅猛增大,有大部分企业因其各业务产生的各式各样的数据仍存储在关系型数据库中。随着数据规模的高速增长,对于传统关系型数据库来说,海量数据带来的存储瓶颈问题以及数据分析处理性能低下问题显得尤为突出,已成为企业亟待解决的问题。在云计算与大数据领域中,有突出性意义并且产生实际应用价值的当属其领域内的分布式平台架构。将海量数据向分布式平台迁移,利用分布式平台提供的资源共享和协同计算的能力,可以很好地解决大规模数据的分析处理问题。在将海量数据迁移至分布式平台后,平台提供给用户的对数据的访问性能对企业来说是一个重要考量指标。在大数据迁移领域,传统的数据迁移算法没有考虑到用户对数据集的实际访问行为,只是单一的根据数据字段划分数据区域,进而切分数据,将数据迁移并部署到分布式平台的各个节点。然而,对于一个实际运行的数据系统,人们对于其数据集的查询访问热度其实是动态变化的,为了实现数据的部署方案与用户访问行为的最优匹配,提升数据系统运行性能。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种基于访问热度的数据迁移部署方法。本专利技术优化传统的数据迁移部署算法,结合用户对数据集的实际访问行为实现面向分布式平台的数据迁移和部署,使得原始数据集中访问热度最高列的访问热度被负载均衡到多个数据节点上,可大大优化数据集在分布式平台上的综合访问性能。本专利技术采用如下技术方案:一种基于访问热度的数据迁移部署方法,包括:S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署。所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果相同,则用户指定日志统计的时间周期,通过原始数据切分算法对n个字段划分数据区域;统计指定时间周期内的n个字段在各自的数据区域的访问次数;将访问次数存储在一张访问详情表中,进一步得到n个字段在指定统计时间周期内的总访问次数排序。所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果不同,则用户指定日志预测时长,根据预测时长内的日志数据,通过预测算法预测下一个预测时长内的n个字段的访问量分布,生成访问详情表;根据访问详情表中的数据得到n个字段的总问次数排序。所述S3中基于日志访问热度负载均衡数据切分算法,具体为:S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum;S3.2设vali为Hot_col列中第i个值,则落在vali上的访问次数为:其中,i=0,1,2,...,valnum-1;S3.3统计求解访问次数最高的字段列的访问次数:数据集被切分成N个区间时,每个区间的平均访问量为S3.4顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:这里x=0,1,...,N-1;c(x)为区间内数的个数;满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有kx+1-kx=c(x)kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:且:S3.5根据上述步骤求得各个区间的划分边界,对数据集进行切分。所述预测算法采用一元线性回归预测法、多元线性回归预测法或非线性回归预测法。所述本专利技术按照访问次数最高的列切分数据并更新数据部署,其中部署方法中的关键元素可以抽象为一个十一元组,元祖定义及元素约束内容如下:Component={DataSet,DataSetAccessLog,DurationPredict,n,LogStatisticalTime,SegmentNum,Ri,Ci,RiCj(tk),NLogStatisticalRi,Deploy_cycle}1)DataSet表示用户待迁移的数据集,其又可以定义为一个三元组:DataSet={DScolNum,DScolType,DScolContent}。其中:a)DScolNum表示数据集包含的字段个数,DScolNum≥2。b)DScolType表示数据集中包含的数据类型。取值包括以下:i.数值数据类型ii.字符数据类型iii.二进制数据类型iv.日期和时间数据类型v.Unicode数据类型vi.货币数据类型vii.特殊数据类型其中除数值数据类型必须包含外,其他字段类型均可选择性包含。c)DScolContent表示数据集中包含的字段内容信息。2)DataSetAccessLog表示DataSet的访问日志数据集,其可以定义为一个三元组:DataSetAccessLog={DSALcolNum,DSALcolType,DSALcolContent}其中:a)DSALcolNum表示数据集包含的字段个数,DSALcolNum≥3。b)DSALcolType表示数据集中包含的数据类型。取值必须包含如下:i.日期和时间数据类型ii.字符数据类型c)DSALcolContent表示数据集包含的字段内容信息。取值必须包含如下:i.访问时间ii.访问字段iii.访问字段具体值3)DurationPredict表示用户指定的预测时长。其中,预测时长单位可为年、季度、月、周、天。4)n表示用户指定的DataSet中最关注的访问字段的个数,且n≥2。5)LogStatisticalTime表示用户指定的日志统计时间周期。其中,时间周期单位可为年、季度、月、周、天;统计单位可为天、小时、分钟;根据用户指定的时间周期单位以及统计单位,可换算出该时间周期内的统计单位总数为LogStatisticalTime_num。(例:若用户指定LogStatisticalTime=2/周,统计单位为天,则LogStatisticalTime_num=14)6)SegmentNum表示用户指定的数据集切分段数。其中SegmentNum>0,默认值为1。7)Ri表示针对数据集DataSet使用原始数据切分算法为其划分出的第i个数据区域,其中i∈{1,2,...,SegmentNum}。8)Cj表示用户指定的第j个访问字段。所述访问字段的字段类型必须为数值数据类型,且j∈{1,2,...,n}。9)RiCj(tk)表示k个统计单位时长内落在用户指定的第j个高频访问字段的第i个数据区域的访问次数,其中i∈{1,2,...,SegmentNum},j∈{1,2,...,n},k∈{1,2,...,LogStatisticalTime_num}。10)NLogStatistical本文档来自技高网...

【技术保护点】
1.一种基于访问热度的数据迁移部署方法,其特征在于,包括:S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署。

【技术特征摘要】
1.一种基于访问热度的数据迁移部署方法,其特征在于,包括:S1在分布式平台中获取待迁移数据集的访问日志数据集,并指定待迁移数据集的切分段数及在分布式平台上的部署更新周期,设定n个在该数据集中最关注的访问字段;S2通过预测算法对下一时段的访问量分布进行预测,得到n个字段的总访问次数排序;S3根据得到的访问次数排序,通过基于日志的访问热度负载均衡数据切分算法,对访问次数最大的列重新划分数据区域;S4根据重新划分的数据区域对待迁移数据集进行切分,并根据切分结果更新数据集在分布式平台的部署。2.根据权利要求1所述一种基于访问热度的数据迁移部署方法,其特征在于,所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果相同,则用户指定日志统计的时间周期,通过原始数据切分算法对n个字段划分数据区域;统计指定时间周期内的n个字段在各自的数据区域的访问次数;将访问次数存储在一张访问详情表中,进一步得到n个字段在指定统计时间周期内的总访问次数排序。3.根据权利要求1所述的一种基于访问热度的数据迁移部署方法,其特征在于,所述S2还包括判断下一时段的访问量分布与前一段访问量分布是否相同,如果不同,则用户指定日志预测时长,根据预测时长内的日志数据,通过预测算法预测下一个预测时长内的n个字段的访问量分布,生成访问详情表;根据访问详情表中的数据得到n个字段的总问次数排序。4.根据权利要求1所述的一种基于访问热度的数据迁移部署方法,其特征在于,所述S3中基于日志访问热度负载均衡数据切分算法,具体为:S3.1设在一个统计时间周期内访问次数最高的字段列为Hot_Col,访问次数为Hits,数据集被切分成N个区间,将访问次数最高的字段列的访问次数均匀分配给N个区间,每个区间的平均访问量为Hitsarvg;Hot_Col列数据总个数为valnum;S3.2设vali为Hot_col列中第i个值,则落在vali上的访问次数为:其中,i=0,1,2,...,valnum-1;S3.3统计求解访问次数最高的字段列的访问次数:数据集被切分成N个区间时,每个区间的平均访问量为S3.4顺序搜索:在i=0,1,2,...,Valnum-1上求解满足下式的c(x)个数组成的区间:这里x=0,1,...,N-1;c(x)为区间内数的个数;满足c(x)值,其起始和终止位置为求解的数据区间的切分边界,且有kx+1-kx=c(x)kx,kx+1为数据区间的起始边界和终止边界,并且为该列中数的绝对位置索引,则:且:S3.5根据上述步骤求得各个区间的划分边界,对数据集进行切分。5.根据权利要求1所述一种基于访问热度的数据迁移部署方法,其特征在于,所述S4中根据切分结果更新数据集在分布式平台的部署,在部署过程中的关键元素为十一元组,元组定义及元素约束内容如下:Component={DataSet,DataSetAccessLog,DurationPredict,n,LogStatisticalTime,SegmentNum,Ri,Cj,RiCj(t...

【专利技术属性】
技术研发人员:杨灿刘宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1