一种跨集群数据的处理方法和系统、存储介质技术方案

技术编号:21059968 阅读:29 留言:0更新日期:2019-05-08 06:50
本发明专利技术实施例涉及一种跨集群数据的处理方法和系统、存储介质。其中,该方法包括:对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息,判断请求数据信息对应的目标数据是否存储于预设的跨集群分布式缓存中,得到第一判断结果,若第一判断结果为是时,则从跨集群分布式缓存中读取目标数据,其中,跨集群分布式缓存中包括访问频次大于频次阈值的热数据。通过本实施例提供的技术方案,避免了现有技术中用户通过多集群作业入口对在不同的集群中的数据进行读取,而各个集群建的数据迁移会消耗大量的宽带资源,容易引发数据供应不及时的技术弊端,实现了数据的及时获取,提高了数据处理的效率的技术效果。

【技术实现步骤摘要】
一种跨集群数据的处理方法和系统、存储介质
本专利技术实施例涉及集群数据处理
,尤其涉及一种跨集群数据的处理方法和系统、存储介质。
技术介绍
随着业务和数据规模的发展,大数据能力开放平台的底层集群会越来越多,不同集群所支撑的业务也不尽相同(比如O域互联网日志集群、O域信令集群、B域用户信息和通话详单数据集群、位置数据集群等)。由于不同合作伙伴租户在基于多业务集群做联合建模时,经常会使用不同业务域的主题数据(比如B域、O域、M域),在通常的日/月数据加工模型需求场景中还时常会联合不同维度(比如地域、账期、渠道、产品等)对应的数据表。这样就不可避免的导致集群间的数据迁移和预处理任务也越来越频繁。因此,对跨集群数据进行高效快速处理成了亟待解决的技术问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术中所存在的上述缺陷,提供一种跨集群数据的处理方法和系统、存储介质,用以解决现有技术中存在数据处理效率低的问题。根据本专利技术实施例的一个方面,本专利技术实施例提供了一种跨集群数据的处理方法,所述方法包括:对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息;判断所述请求数据信息对应的目标数据是否存储于预设的跨集群分布式缓存中,得到第一判断结果;若所述第一判断结果为是时,则从所述跨集群分布式缓存中读取所述目标数据;其中,所述跨集群分布式缓存中包括访问频次大于频次阈值的热数据。进一步地,所述方法还包括:若所述第一判断结果为否时,则判断所述目标数据是否仅分布于多个预设的集群中的任一集群,得到第二判断结果;若所述第二判断结果为是时,则从包括所述目标数据的集群中读取所述目标数据。进一步地,所述方法还包括:若所述第二判断结果为否时,则获取预设的同步排列表,其中,所述同步排列表中包括每个所述集群对应的迁移信息;分别计算每个包括部分所述目标数据对应的集群的综合负载指数;将每个所述综合负载指数均与预设的负载阈值进行比较,提取比所述负载阈值大的目标综合负载指数对应的集群;根据所述目标综合负载指数对应的集群、所述同步排列表和所述跨集群分布式缓存,确定迁移任务。进一步地,基于式1计算所述综合负载指数F(i),式1:其中,n为集群总数,Wcpu为集群CPU平均负载权重系数,cpuLoad(i)为集群i的CPU负载,Wmem为集群内存平均负载权重系数,memLoad(i)为集群i的内存负载,Wdisk为集群磁盘存储平均负载权重系数,diskLoad(i)为集群i的磁盘存储负载,Wnet为集群带宽负载权重系数,netLoad(i)为集群节点i的带宽占用负载,Wjob为集群作业平均负载系数,jobLoad为集群执行作业负载,Wpenalty为集群业务优先惩罚项权重系数,Sm为业务优先惩罚项。进一步地,获取Sm的方法包括:将每一天的时间按K小时进行切片;通过式2对第m个切片结束时间段进行表示,式2:Tm=mK(m∈[1,24/K]);通过式3对第m个切片时间片段进行表示,式3:f(m-1,m)=[Tm-1,Tm];遍历每个时间片段,得到每个时间片段对应的业务优先惩罚项Sm。进一步地,所述方法还包括:基于所述迁移任务中第一集群对应的待迁移的数据容量信息,所述集群对应的宽带信息,以及第二集群对应的负载信息,计算所述迁移任务对应的进度信息,其中,所述迁移任务包括将所述第一集群中的数据迁移至所述第二集群的信息。进一步地,所述方法还包括:响应于执行所述迁移任务过程中发生的故障事件,生成告警信息;其中,所述故障事件包括:所述集群发生网络拥塞和/或所述集群资源发生瓶颈。进一步地,所述对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息,具体包括:对所述SQL语句的词法和语法解析,生成AST抽象语法树;通过遍历递归的方法对所述AST树进行遍历递归处理,生成查询块QueryBlock;对所述QueryBlock进行分析处理,生成逻辑执行计划信息;基于所述逻辑执行计划信息,生成所述请求数据信息。进一步地,所述方法还包括:响应于访问频次大于频次阈值的热数据,将所述热数据存储至所述跨集群分布式缓存。根据本专利技术实施例的另一个方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。根据本专利技术实施例的另一个方面,本专利技术实施例还提供了一种跨集群数据的处理系统,所述系统包括:解析模块、判断模块和读取模块,其中,所述解析模块用于:对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息;所述判断模块用于:判断所述请求数据信息对应的目标数据是否存储于预设的跨集群分布式缓存中,得到第一判断结果;所述读取模块用于:若所述第一判断结果为是时,则从所述跨集群分布式缓存中读取所述目标数据;其中,所述跨集群分布式缓存中包括访问频次大于频次阈值的热数据。进一步地,所述判断模块还用于:若所述第一判断结果为否时,则判断所述目标数据是否仅分布于多个预设的集群中的任一集群,得到第二判断结果;所述读取模块还用于:若所述第二判断结果为是时,则从包括所述目标数据的集群中读取所述目标数据。进一步地,所述系统包括:获取模块、计算模块、比较模块、匹配模块,其中,所述获取模块用于:若所述第二判断结果为否时,则获取预设的同步排列表,其中,所述同步排列表中包括每个所述集群对应的迁移信息;所述计算模块用于:分别计算每个包括部分所述目标数据对应的集群的综合负载指数;所述比较模块用于:将每个所述综合负载指数均与预设的负载阈值进行比较,提取比所述负载阈值大的目标综合负载指数对应的集群;所述匹配模块用于:根据所述目标综合负载指数对应的集群、所述同步排列表和所述跨集群分布式缓存,确定迁移任务。进一步地,基于式1计算所述综合负载指数F(i),式1:其中,n为集群总数,Wcpu为集群CPU平均负载权重系数,cpuLoad(i)为集群i的CPU负载,Wmem为集群内存平均负载权重系数,memLoad(i)为集群i的内存负载,Wdisk为集群磁盘存储平均负载权重系数,diskLoad(i)为集群i的磁盘存储负载,Wnet为集群带宽负载权重系数,netLoad(i)为集群节点i的带宽占用负载,Wjob为集群作业平均负载系数,jobLoad为集群执行作业负载,Wpenalty为集群业务优先惩罚项权重系数,Sm为业务优先惩罚项。进一步地,所述系统还包括:切片模块、遍历模块,其中,所述切片模块用于:将每一天的时间按K小时进行切片;通过式2对第m个切片结束时间段进行表示,式2:Tm=mK(m∈[1,24/K]);通过式3对第m个切片时间片段进行表示,式3:f(m-1,m)=[Tm-1,Tm];所述遍历模块用于:遍历每个时间片段,得到每个时间片段对应的业务优先惩罚项Sm。进一步地,所述计算模块还用于:基于所述迁移任务中第一集群对应的待迁移的数据容量信息,所述集群对应的宽带信息,以及第二集群对应的负载信息,计算所述迁移任务对应的进度信息,其中,所述迁移任务包括将所述第一集群中的数据迁移至所述第二集群的信息。进一步地,所述系统还包括:生成模块,其中,所述生成模块用于:响应于执行所述迁移任务过程中发生的故障事件,生成告警信息;其中,所述故障事件包括:所述集群发生网络拥塞本文档来自技高网...

【技术保护点】
1.一种跨集群数据的处理方法,其特征在于,所述方法包括:对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息;判断所述请求数据信息对应的目标数据是否存储于预设的跨集群分布式缓存中,得到第一判断结果;若所述第一判断结果为是时,则从所述跨集群分布式缓存中读取所述目标数据;其中,所述跨集群分布式缓存中包括访问频次大于频次阈值的热数据。

【技术特征摘要】
1.一种跨集群数据的处理方法,其特征在于,所述方法包括:对获取到的数据请求中携带的SQL语句进行解析,得到请求数据信息;判断所述请求数据信息对应的目标数据是否存储于预设的跨集群分布式缓存中,得到第一判断结果;若所述第一判断结果为是时,则从所述跨集群分布式缓存中读取所述目标数据;其中,所述跨集群分布式缓存中包括访问频次大于频次阈值的热数据。2.根据权利1要求所述的跨集群数据的处理方法,其特征在于,所述方法还包括:若所述第一判断结果为否时,则判断所述目标数据是否仅分布于多个预设的集群中的任一集群,得到第二判断结果;若所述第二判断结果为是时,则从包括所述目标数据的集群中读取所述目标数据。3.根据权利要求2所述的跨集群数据的处理方法,其特征在于,所述方法还包括:若所述第二判断结果为否时,则获取预设的同步排列表;分别计算每个包括部分所述目标数据对应的集群的综合负载指数;将每个所述综合负载指数均与预设的负载阈值进行比较,提取比所述负载阈值大的目标综合负载指数对应的集群;根据所述目标综合负载指数对应的集群、所述同步排列表和所述跨集群分布式缓存,确定迁移任务。4.根据权利要求3所述的跨集群数据的处理方法,其特征在于,基于式1计算所述综合负载指数F(i),式1:其中,n为集群总数,Wcpu为集群CPU平均负载权重系数,cpuLoad(i)为集群i的CPU负载,Wmem为集群内存平均负载权重系数,memLoad(i)为集群i的内存负载,Wdisk为集群磁盘存储平均负载权重系数,diskLoad(i)为集群i的磁盘存储负载,Wnet为集群带宽负载权重系数,netLoad(i)为集群节点i的带宽占用负载,Wjob为集群作业平均负载系数,jobLoad为集群执行作业负载,Wpenalty为集群业务优先惩罚项权重系数,Sm为业务优先惩罚项。5.根据权利要求4所述的跨集群数据的处理方法,其特征在于,获取Sm的方法包括:将每一天的时间按K小时进行切片;通过式2对第m个切片结束时间段进行表示,式2:Tm=mK(m∈[1,24/K]);通过式3对第m个切片时间片段进行表示,式3:f(m-1,m)=[Tm-1,Tm];遍历每个时间片段,得到每个时间片段对应的业务优先惩罚项Sm。6.根据权利要求3至5中任一项所述的跨集群数据的处理方法,其特征在于,所述方法还包括:基于所述...

【专利技术属性】
技术研发人员:尹正军余澈穆纯进马骁
申请(专利权)人:中国联合网络通信集团有限公司联通大数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1