一种基于混合存储的流式数据自适应持久化方法及系统技术方案

技术编号：13585245 阅读：50 留言：0更新日期：2016-08-24 15:28

本发明专利技术一种基于混合存储的流式数据自适应持久化方法及系统，包括实时采集流式数据处理系统的状态特征信息；建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数；根据当前流式数据处理系统状态特征信息和建立的回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；流式数据处理系统根据第得出的持久化窗口大小更改其当前的持久化窗口，将流数据处理过程中的中间状态或计算结果保存到固态硬盘中；当固态硬盘中的数据容量达到一定程度时，再将固态硬盘中的数据保存到普通硬盘上。本发明专利技术可以根据当前及历史状态信息，计算出此刻持久化窗口的大小，进而动态适配流式数据速率不稳定的情况，保证了系统在易用性和一致性之间的平衡。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于混合存储的流式数据自适应持久化方法及系统，属于软件

技术介绍
随着云计算、物联网、社交媒体等信息技术和应用模式的快速发展，流式数据逐渐成为信息化系统中一类关键的数据形式。典型运用领域中，流式大数据具有实时性、易失性、突发性、无序性和无限性等特征(参见文献：孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.)。在诸如物联网领域，我们需要将数据流快速存储到非易失介质中，而在可靠性要求较高的金融领域；我们需要将节点的中间状态和计算结果存储下来，保存到非易失存储介质中以便能够进行失效恢复：流式数据处理中，数据如何及时有效的存入到非易失介质中是应用建设的一个重点。在存储数据时，主流的商业产品一般有两种存储方式：同步存储和异步存储。同步存储是指在数据写入内存的同时，持久化到非易失存储介质中，如果持久化到非易失存储介质失败，则数据写入内存也失败，这种方式具有高可靠性保证，但易用性差，延迟较高；异步存储是指数据先缓存到例如队列这样的数据结构中，等到持久化周期到来时，一次性将这些数据写入到非易失存储介质中，这种方法具有高吞吐量，易用性好等特点，但是非易失存储介质中的数据相比内存中的数据会存在一定的延迟，一致性差。以上两种方法无论是在流数据处理情景还是在批量数据情景下都是较为通用的方法。对数据准确性要求高而系统处理能力要求低的系统，偏向于选择同步存储的方法；而对于数据准确性要求宽松系统处理能力要求高的系统，偏向于选择异步存储的方法。大多数流式数据处理系统如Hazelcast,Pu...

【技术保护点】
一种基于混合存储的流式数据自适应持久化方法，其特征在于包括以下步骤：(1)实时采集流式数据处理系统的状态特征信息；状态特征信息分为两类：一种是系统易用性相关信息和系统一致性相关信息，系统易用性相关信息包括CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；系统一致性相关包括流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)；(2)建立基于机器学习的多元线性回归模型，根据采集的流式数据处理系统的状态特征信息采用逐步回归方法估计模型参数；(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；(4)流式数据处理系统根据步骤(3)得出的持久化窗口大小更改当前的持久化窗口，将流数据处理过程中的中间状态或计算结果等数据保存到固态硬盘中；(5)当固态硬盘中的数据达到一定程度即固态硬盘的使用率占到了80％时，再将固态硬盘中的数据转移到普通硬盘上。

【技术特征摘要】
1.一种基于混合存储的流式数据自适应持久化方法，其特征在于包括以下步骤：(1)实时采集流式数据处理系统的状态特征信息；状态特征信息分为两类：一种是系统易用性相关信息和系统一致性相关信息，系统易用性相关信息包括CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；系统一致性相关包括流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)；(2)建立基于机器学习的多元线性回归模型，根据采集的流式数据处理系统的状态特征信息采用逐步回归方法估计模型参数；(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小；(4)流式数据处理系统根据步骤(3)得出的持久化窗口大小更改当前的持久化窗口，将流数据处理过程中的中间状态或计算结果等数据保存到固态硬盘中；(5)当固态硬盘中的数据达到一定程度即固态硬盘的使用率占到了80％时，再将固态硬盘中的数据转移到普通硬盘上。2.根据权利要求1所述的基于混合存储的流式数据自适应持久化方法，其特征在于：所述步骤(2)建立基于机器学习的多元线性回归模型，根据采集的状态特征信息估计模型参数的过程为：(21)建立的多元线性回归模型为：W＝β0+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+β7x7+β8x8+∈xi，1≤i≤8为采集的流式数据处理系统的8种状态特征信息值，即CPU使用率(C)，内存使用率(M)，网络速率(F)，固态硬盘使用率(U)；系统一致性相关包括流式数据进入内存的速率(V)，流式数据进入内存的延迟(D)，系统写入固态硬盘的速率(P)，系统写入固态硬盘的延迟(Z)；β0为回归常数，βi，1≤i≤8为偏回归系数，∈为随机误差，∈～(0,σ2)；W为最优持久化窗口大小；(22)采集一段时间内的流式数据处理系统的状态特征信息，设采集了m组样本数据(xi,1,xi,2,xi,2,…,xi,n:wi),i＝1,2,3,…,m；n＝8；xi,k表示的是第i组数据的第k分量；wi表示第i组数据的持久化窗口大小；(23)采用逐步回归方法迭代选取最优的系统状态特征集合，进而求解多元线性回归模型，基本方法为：将最优的系统状态特征集合初始化为空集，每次从剩余的系统状态特征中选取一个经过F检验为显著的特征信息加入到该集合中，重复执行这样的选择过程，直到所选取的系统状态特征集合的性能无法提升为止，由此得到最优系统状态特征集合并根据该集合计算得到回归模型的解为：3.根据权利要求1所述的基于混合存储的流式数据自适应持久化方法，其特征在于：所述步骤(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型，计算得出当前状态下流式数据处理系统的最优持久化窗口大小的过程：(31)采集当前的流式数据处理系统的状态特征信息，假设其值为(C,M,F,U,V,D,P,Z)；(32)将当前流式数据处理系统的状态特征值代入到上述采用逐步回归方法...

【专利技术属性】
技术研发人员：黄涛，钟华，魏峻，王伟，唐震，段世凯，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人