当前位置: 首页 > 专利查询>中南大学专利>正文

一种流数据负载的弹性资源配置方法及系统技术方案

技术编号:20566500 阅读:39 留言:0更新日期:2019-03-14 09:21
本发明专利技术涉及云计算领域,公开了一种流数据负载的弹性资源配置方法及系统,以基于实时预测流数据的负载的基础上提高资源配置中的资源利用率;本发明专利技术的方法包括:获取历史流数据作为训练集,并将训练集划分为三个子集;获取实时流数据以分别更新三个子集,根据三个子集得到在线且动态更新的SVR预测模型,并采用SVR预测模型对流数据负载进行预测;计算云计算系统中流数据系统的吞吐量,根据吞吐量设置吞吐量阈值;将预测结果与负载阈值进行比较,当流数据负载预测结果大于吞吐量阈值时,流数据系统增加相应的虚拟机个数;当流数据负载预测结果小于吞吐量阈值时,流数据系统减少相应的虚拟机个数。

A Flexible Resource Allocation Method and System for Streaming Data Load

The invention relates to the field of cloud computing, and discloses a flexible resource allocation method and system for streaming data load, which improves resource utilization in resource allocation based on real-time prediction of streaming data load. The method of the invention includes: acquiring historical streaming data as training set and dividing training set into three subsets; acquiring real-time streaming data to update three subsets separately. According to the three subsets, an online and dynamically updated SVR prediction model is obtained, and the flow data load is predicted by using the SVR prediction model; the throughput of the flow data system in cloud computing system is calculated, and the throughput threshold is set according to the throughput; the prediction results are compared with the load threshold, and when the flow data load prediction results are larger than the throughput threshold, the flow data system increases accordingly. The number of virtual machines; when the prediction result of stream data load is less than the throughput threshold, the stream data system reduces the number of virtual machines.

【技术实现步骤摘要】
一种流数据负载的弹性资源配置方法及系统
本专利技术涉及云计算领域,尤其涉及一种流数据负载的弹性资源配置方法及系统。
技术介绍
随着互联网、物联网及大数据技术的发展,流数据即无限、实时、动态的流形式数据越来越多地出现及应用在金融分析、社交媒体、传感器、网站踪、大规模科学实验等领域,流数据被快速分析才能获取到最大的价值。传统的数据管理系统无法实时处理此类无穷、实时、有序、大规模的流数据。云计算的按需供给服务通过管理、调度与整合分布在网络上的各种资源,以统一的界面为大量用户提供服务,用户则按需计量地使用这些服务。将计算、存储、软件等各种数据中心资源作为一种公用设施来提供,用户根据自己的需要使用,按照使用资源付费,给流处理系统资源弹性分配提供了技术支持。云计算弹性资源分配方法主要有水平调整、垂直调整和迁移三种方式。水平调整是从用户的虚拟机环境中添加或移除应用程序、容器或虚拟机,该方法是目前应用最广泛的弹性资源分配方法;垂直调整是为虚拟机等实例添加或删除CPU、内存等资源;迁移则将物理服务器上运行的虚拟机或应用程序转移至其他服务器中。弹性资源分配中触发弹性操作时机的方法可以分为主动式和反应式两类,主动式则是使用工作负载预测技术来确定未来工作负载何时会超过当前资源配置容量,并在容量超出前调用算法分配额外的资源;反应式不进行预测,通过监控负载变化,并利用资源利用率或服务等级协议(Service-LevelAgreement,简称SLA协议)违约的阈值来触发弹性分配。尽管云资源弹性调整已有多种技术的支持,但是弹性扩展需要较大的时间开销,对于处理实时突变的流数据负载来说效率不高。为了提高云服务的服务质量应该减少云资源配置时间,而数据负载预测正是降低资源配置延迟的有效方法,但在流数据负载预测时面临着诸多挑战,如预测算法无法很好的适应流数据突发情况。
技术实现思路
本专利技术目的在于提供一种流数据负载的弹性资源配置方法及系统,以基于实时预测流数据的负载的基础上提高资源配置中的资源利用率。为实现上述目的,本专利技术提供了一种流数据负载的弹性资源配置方法,包括以下步骤:S1:获取历史流数据作为训练集,并将所述训练集划分为三个子集,包括错误支持样本集、支持样本集、以及保留样本集;S2:获取实时流数据以分别同步更新所述三个子集,根据所述三个子集得到在线且动态更新的SVR预测模型,并采用所述SVR预测模型对流数据负载进行预测;S3:计算云计算系统中流数据系统的吞吐量,根据所述吞吐量设置吞吐量阈值;S4:将所述S2中的流数据负载预测结果与所述S3中的所述吞吐量阈值进行比较,当所述流数据负载预测结果大于所述吞吐量阈值时,流数据系统增加相应的虚拟机个数;当所述流数据负载预测结果小于所述吞吐量阈值时,所述流数据系统减少相应的虚拟机个数。优选地,所述S2中根据所述三个子集得到在线且动态更新的SVR预测模型之前还包括步骤:同步更新三个子集后,删除保留样本集中的样本及对应的样本权重,然后更新错误支持样本集的样本权重和支持样本集的样本权重。优选地,所述S2中,采用所述SVR预测模型对流数据负载进行预测具体包括:S21:获取历史流数据作为所述SVR预测模型的输入,计算历史预测误差平均值;S22:采用所述SVR预测模型预测流数据负载,综合所述历史预测误差平均值与所述实际预测流数据负载得到最终预测值。作为一个总的技术构思,本专利技术还提供一种流数据负载的弹性资源配置系统,包括:第一模块:用于获取历史流数据作为训练集,并将所述训练集划分为三个子集,包括错误支持样本集、支持样本集、以及保留样本集;第二模块:用于获取实时流数据以分别同步更新所述三个子集,根据所述三个子集得到在线且动态更新的SVR预测模型,并采用所述SVR预测模型对流数据负载进行预测;第三模块:用于计算云计算系统中流数据系统的吞吐量,根据所述吞吐量设置吞吐量阈值;第四模块:用于将所述第二模块中的流数据负载预测结果与所述第三模块中的所述吞吐量阈值进行比较,当所述流数据负载预测结果大于所述吞吐量阈值时,流数据系统增加相应的虚拟机个数;当所述流数据负载预测结果小于所述吞吐量阈值时,所述流数据系统减少相应的虚拟机个数。优选地,所述第二模块还用于在同步更新三个子集后,删除保留样本集中的样本及对应的样本权重,然后更新错误支持样本集的样本权重和支持样本集的样本权重。优选地,所述第二模块包括第一单元和第二单元,所述第一单元用于获取历史流数据作为所述SVR预测模型的输入,计算历史预测误差平均值;所述第二单元用于采用所述SVR预测模型预测流数据负载,综合所述历史预测误差平均值与所述实际预测流数据负载得到最终预测值。本专利技术具有以下有益效果:本专利技术提供一种流数据负载的弹性资源配置方法及系统,首先通过训练得到在线且动态更新的SVR预测模型,通过该SVR预测模型对流数据负载进行预测;然后计算云计算系统中流数据系统的吞吐量,根据吞吐量设置吞吐量阈值;再根据预测结果与吞吐量阈值的比较结果弹性分配虚拟机;能基于实时预测流数据的负载的基础上提高资源配置中的资源利用率,降低云计算过程中的资源浪费,使云计算的处理过程更为灵活。下面将参照附图,对本专利技术作进一步详细的说明。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术优选实施例的流数据负载的弹性资源配置方法流程图;图2是本专利技术优选实施例的系统架构图;图3是本专利技术优选实施例的在线SVR预测模型中划分超平面的情况示意图;图4是本专利技术优选实施例的1998年世界杯时间序列的预测结果图;图5是本专利技术优选实施例的不同数目虚拟机的时间窗最大吞吐量预测结果图;图6是本专利技术优选实施例的两个基准应用处理数据时的弹性资源配置的应用结果图。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。实施例1参见图1,本实施例提供一种流数据负载的弹性资源配置方法,包括以下步骤:S1:获取历史流数据作为训练集,并将训练集划分为三个子集,包括错误支持样本集、支持样本集、以及保留样本集;S2:获取实时流数据以分别同步更新三个子集,根据三个子集得到在线且动态更新的SVR预测模型,并采用SVR预测模型对流数据负载进行预测;S3:计算云计算系统中流数据系统的吞吐量,根据吞吐量设置吞吐量阈值;S4:将S2中的流数据负载预测结果与S3中的吞吐量阈值进行比较,当流数据负载预测结果大于吞吐量阈值时,流数据系统增加相应的虚拟机个数;当流数据负载预测结果小于吞吐量阈值时,流数据系统减少相应的虚拟机个数。以上步骤中,首先建立了在线且动态更新的SVR预测模型(supportvectorregression,支持向量回归),然后计算云计算系统中流数据系统的吞吐量,根据吞吐量设置吞吐量阈值;再根据预测结果与吞吐量阈值的比较结果弹性分配虚拟机;能基于实时预测流数据的负载的基础上提高资源配置中的资源利用率,降低云计算过程中的资源浪费,使云计算的处理过程更为灵活。首先,应当明确的是,本专利技术实施例的架构如下图2所示,其中,producer为生产者,Partion为分区,RDD为弹性分布式数据集,exec本文档来自技高网
...

【技术保护点】
1.一种流数据负载的弹性资源配置方法,其特征在于,包括以下步骤:S1:获取历史流数据作为训练集,并将所述训练集划分为三个子集,包括错误支持样本集、支持样本集、以及保留样本集;S2:获取实时流数据以分别同步更新所述三个子集,根据所述三个子集得到在线且动态更新的SVR预测模型,并采用所述SVR预测模型对流数据负载进行预测;S3:计算云计算系统中流数据系统的吞吐量,根据所述吞吐量设置吞吐量阈值;S4:将所述S2中的流数据负载预测结果与所述S3中的所述吞吐量阈值进行比较,当所述流数据负载预测结果大于所述吞吐量阈值时,流数据系统增加相应的虚拟机个数;当所述流数据负载预测结果小于所述吞吐量阈值时,所述流数据系统减少相应的虚拟机个数。

【技术特征摘要】
2018.09.07 CN 20181104581031.一种流数据负载的弹性资源配置方法,其特征在于,包括以下步骤:S1:获取历史流数据作为训练集,并将所述训练集划分为三个子集,包括错误支持样本集、支持样本集、以及保留样本集;S2:获取实时流数据以分别同步更新所述三个子集,根据所述三个子集得到在线且动态更新的SVR预测模型,并采用所述SVR预测模型对流数据负载进行预测;S3:计算云计算系统中流数据系统的吞吐量,根据所述吞吐量设置吞吐量阈值;S4:将所述S2中的流数据负载预测结果与所述S3中的所述吞吐量阈值进行比较,当所述流数据负载预测结果大于所述吞吐量阈值时,流数据系统增加相应的虚拟机个数;当所述流数据负载预测结果小于所述吞吐量阈值时,所述流数据系统减少相应的虚拟机个数。2.根据权利要求1所述的流数据负载的弹性资源配置方法,其特征在于,所述S2中根据所述三个子集得到在线且动态更新的SVR预测模型之前还包括步骤:同步更新三个子集后,删除保留样本集中的样本及对应的样本权重,然后更新错误支持样本集的样本权重和支持样本集的样本权重。3.根据权利要求1所述的流数据负载的弹性资源配置方法,其特征在于,所述S2中,采用所述SVR预测模型对流数据负载进行预测具体包括:S21:获取历史流数据作为所述SVR预测模型的输入,计算历史预测误差平均值;S22:采用所述SVR预测模型预测流...

【专利技术属性】
技术研发人员:胡志刚康惠郑美光陶勇
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1