当前位置: 首页 > 专利查询>曲逸文专利>正文

一种基于动态规划的分布式数据库系统协同优化方法技术方案

技术编号:25223904 阅读:49 留言:0更新日期:2020-08-11 23:13
本发明专利技术公开了一种基于动态规划的分布式数据库系统协同优化方法。该方法包括以下步骤:采用数据流分块方法将分布式数据全集划分为若干不可再分的数据基元;并发处理任务的优化;分布式资源的负载平衡优化;计划任务的动态调度方法。本发明专利技术具有降维式搜索策略,在分布式大数据的多任务随发性处理过程中,保证了任务执行计划的全程最优化,具有效率高、负载均衡性好、资源利用率高和实时处理能力强的优点。

【技术实现步骤摘要】
一种基于动态规划的分布式数据库系统协同优化方法本专利技术为申请号名称为“一种基于动态规划的分布式数据库系统协同优化方法”,申请号为“2018100723494”的专利技术专利的分案申请。
本专利技术涉及一种基于动态规划的分布式数据库系统协同优化方法,属于互联网云计算和大数据领域。
技术介绍
目前,在分布式数据库的并发任务优化领域,通行做法是先用一个通用的并发任务计划表述模型来描述任务计划,然后给出一个执行计划需要消耗的资源代价模型,最终制定执行策略,使得计划任务的代价最小。但以上思想在考虑到并发任务的同步性、优化过程自身的额外开销、多种同类资源的竞争以及数据倾斜和延迟性,使得高并发任务计划的建模很难精准,这在高并发分布式任务计划中,将对优化效果造成颠覆性的影响。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于动态规划的分布式任务协同优化方法,可将上述非确定性因素的影响降到最低。本专利技术的技术方案为:一种基于动态规划的分布式数据库系统协同优化方法,其特征在于,该方法包括以下步骤:A.采用基于数据流分块方法,将分布式数据全集按照计划任务序列对数据单元的并更操作这一不可区分关系分块为一系列不可再分的数据基元;B.并发处理任务的优化;C.分布式资源的负载平衡优化,并计算出计划任务代价;D.计划任务的动态调度方法。进一步的,所述步骤A的具体实现方式为:采用四元信息系统描述法,将分布式数据系统表示为INS=(U,Fh,Vra,f),其中INS表示目标分布式数据系统;U表示数据系统中所有个体的全集,是非空有限集;Fh表示个体的特征,是非空有限集;Vra表示特征Fh的值域;f为系统映射函数满足{f:U×Fh→Vra};因此,对任一特征Fhi∈Fh,数据集Ui∈U,有如下算式:其中,表示特征Fhi的值集;记分布式数据系统的数据集合InD={d1,d2...dn},di表示数据集中的一个数据单元,其中i∈[1,n];计划任务序列MS={MS1,MS2…MSq},MSj表示分布式数据系统中的一个并发操作任务,其中j∈[1,q];则可得数据操作矩阵OPr:将数据操作矩阵OPr映射到分布式数据系统INS=(U,Fh,Vra,f)上,令U=InD={d1,d2…dn},Fh=MS={MS1,MS2…MSq},Vra=OPr为特征Fh的值域,即Vra=U1≤i≤n,1≤j≤qOPrij;系统映射函数f:定义为计划任务序列中的任务对分布式数据集合InD中的di有变更操作的函数输出为A,无变更操作的输出为N;对于INS数据系统中任意一个个体的特征子集则可以在U×U空间上定义一个不可区分的关系R(fh)={(u,u′)∈U×U:有f(u,fh)=f(u′,fh)},在U上按不可区分关系R(fh)可得数据分块U/R(fh)记为[u]fh,定义为本方法的数据基元,即不可再分块的数据最小单元。进一步的,所述步骤B的具体实现方式为:记β和γ表示分布式数据系统中任意两个逻辑表达式,则C(β∧γ)和C(β∨γ)可表示数据系统中的两个数据基元,其维度分别为|C(β∧γ)|和|C(β∨γ)|;记两并发任务的相似度为S:设定两个并发任务可看做相似任务的充要条件是:S>0.5,若两任务为相似任务,可以降维合并,记为MSij=MSi∨MSj,即进一步的,所述步骤C的具体实现方式为:分布式资源的负载平衡方法为:记任务TS在一个分布式系统下的资源向量为MSResVector(TS),cpu向量MSCpuVector(TS),任务存储向量MSDisVector(TS),带宽资源向量MSNetVector(TS),内存资源向量MSMemVector(TS),则有:其中,CPUi(TS)表示任务TS对各点CPU资源的占用;Diski(TS)表示对各点存储资源的占用;Neti(TS)表示对各站点带宽资源的占用;Memi(TS)表示对各点内存资源的占用;利用均方根计算各种资源的优化因子,其中分布式CPU资源的优化因子为:同理可得其他分布式资源的优化因子:则任务TS的代价为:进一步的,所述步骤D的具体实现方式为:所述动态调度方法,即从计划任务序列中选择一个或若干适当的任务,根据系统当前资源占用情况为并发任务动态地分配所需资源,实现总体上更有效地利用分布式资源:(1)计算当前系统资源占用向量SysResVector:假设系统的计划任务序列中共有n个任务,则每个任务的资源占用向量为:MSResVector(TSi),那么当前系统总体资源占用向量为:(2)根据任务序列的执行代价和当前系统资源,选择可执行任务序列:Compare(SysResVector,Cost(TS));(3)无需动态调度,直接进入执行序列的任务:设定平衡阈值若某任务的执行代价则该任务无需进入等待序列,直接插入执行序列;(4)某任务响应完毕,释放资源到系统:SysResVector=SysResVector-MSResVector(TSi)。本专利技术的有益效果为:本专利技术完成了基于动态规划的分布式数据库系统的协同优化方法,在分布式大数据的多任务随发性处理过程中,保证了任务执行计划的全程最优化,具有效率高、负载均衡性好、资源利用率高和实时处理能力强的优点。附图说明图1为基于动态规划的分布式数据库系统协同优化方法整体流程图。图2为协同优化方法实际性能对比图。具体实施方式参照图1,本专利技术基于动态规划的分布式数据库系统协同优化方法包括以下步骤:A.采用基于数据流分块方法,将分布式数据全集按照计划任务序列对数据单元的并更操作这一不可区分关系分块为一系列不可再分的数据基元:在大数据处理领域,计算资源、数据以及处理请求点的最大特征就是分布性,并且数据呈现出非结构化趋势,因此预期数据流分块方法能够在这类分布式数据库系统中发挥良好的效果,必须设计一套充分考虑以上问题,通信代价低、结果可靠的数据分块方法。该方法中,采用四元信息系统描述法,将分布式数据系统表示为INS=(U,Fh,Vra,f),其中INS表示目标分布式数据系统;U表示数据系统中所有个体的全集,是非空有限集;Fh表示个体的特征,是非空有限集;Vra表示特征Fh的值域;f为系统映射函数满足{f:U×Fh→Vra};因此,对任一特征Fhi∈Fh,数据集Ui∈U,有如下算式:其中,表示特征Fhi的值集;记分布式数据系统的数据集合InD={d1,d2…dn},其中di(i∈[1,n])表示数据集中的一个数据单元;计划任务序列MS={MS1,MS2…MSq},其中MSj(j∈[1,q])表示分布式数据系统中的一个并发操作任务,则可得到数据操作矩阵OPr,表示如下:将数据操本文档来自技高网...

【技术保护点】
1.一种基于动态规划的分布式数据库系统协同优化方法,其特征在于,该方法包括以下步骤:/nA.采用基于数据流分块方法,将分布式数据全集按照计划任务序列对数据单元的变更操作这一不可区分关系分块为一系列不可再分的数据基元;/n采用四元信息系统描述法,将分布式数据系统表示为INS=(U,Fh,Vra,f),其中INS表示目标分布式数据系统;U表示数据系统中所有个体的全集,是非空有限集;Fh表示个体的特征,是非空有限集;Vra表示特征Fh的值域;f为系统映射函数满足{f:U×Fh→V

【技术特征摘要】
1.一种基于动态规划的分布式数据库系统协同优化方法,其特征在于,该方法包括以下步骤:
A.采用基于数据流分块方法,将分布式数据全集按照计划任务序列对数据单元的变更操作这一不可区分关系分块为一系列不可再分的数据基元;
采用四元信息系统描述法,将分布式数据系统表示为INS=(U,Fh,Vra,f),其中INS表示目标分布式数据系统;U表示数据系统中所有个体的全集,是非空有限集;Fh表示个体的特征,是非空有限集;Vra表示特征Fh的值域;f为系统映射函数满足{f:U×Fh→Vra};因此,对任一特征Fhi∈Fh,数据集Ui∈U,有如下算式:



其中,表示特征Fhi的值集;
记分布式数据系统的数据集合InD={d1,d2...dn},di表示数据集中的一个数据单元,其中i∈[1,n];计划任务序列MS={MS1,MS2…MSq},MSj表示分布式数据系统中的一个并发操作任务,其中j∈[1,q];则可得数据操作矩阵OPr:



将数据操作矩阵OPr映射到分布式数据系统INS=(U,Fh,Vra,f)上,令U=InD={d1,d2...dn},Fh=MS={MS1,MS2…MSq},Vra=OPr为特征Fh的值域,即Vra=∪1≤i≤n,1≤j≤qOPrij;系统映射函数f:定义为计划任务序列中的任务对分布式数据集合InD中的di有变更操作的函数输出为A,无变更操作的输出为N;
对于INS数据系统中任意一个个体的特征子集则可以在U×U空间上定义一个不可区分的关系R(fh)={(u,u′)∈U×U:有f(u,fh)=f(u′,fh)},在U上按不可区分关系R(fh)可得数据分块U/R(fh)记为[u]fh,定义为本方法的数据基元,即不可再分块的数据最小单元;
B.并发处理任务的优化;
C.分布式资源的负载平衡优化,并计算出计划任务代价;
分布式资源的负载平衡算法为:记任务TS在一个分布式系统下的资源向量为MSResVector(TS),cpu向量MSCpuVector(TS),任务存储向量MS...

【专利技术属性】
技术研发人员:曲逸文
申请(专利权)人:曲逸文
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1