一种云平台数据处理方法技术

技术编号:11783497 阅读:99 留言:0更新日期:2015-07-28 00:03
本发明专利技术提供了一种云平台数据处理方法,该方法包括:将云存储系统中的视频数据文件以数据分块多版本的形式存储并规划并行处理事务,以数据块和版本之间的映射关系为特征,对云平台中多个数据节点执行聚类,根据已执行的事务的反馈信息来动态调度未执行的事务。本发明专利技术提出的方法提高了云平台系统的资源利用率和负载均衡的效果。

【技术实现步骤摘要】

本专利技术涉及云计算,特别涉及。
技术介绍
云存储具有高可靠性、高扩展性、廉价低开销的特点。每台存储机器都是一个独立 的存储节点,节点的加入和分离不影响系统的正常运行,文件的数据量大;在处理海量视频 数据方面具有优势。但是,由于视频数据数据分块数量很多,并且每个数据分块及其版本都 存储在云平台中的不同节点中,因此在大量节点上需要进行事务的最优调度,而目前云平 台中的调度和资源分配机制是一种静态地局部调度机制,在进行资源分配和调度时,仅考 虑距离数据最近节点的当前资源状态,而没有从系统全局的角度进行资源的最佳分配。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,包 括: 将云存储系统中的视频数据文件以数据分块多版本的形式存储并规划并行处理 事务,以数据块和版本之间的映射关系为特征,对云平台中多个数据节点执行聚类,根据已 执行的事务的反馈信息来动态调度未执行的事务。 优选地,所述将云存储系统中的视频数据文件以数据分块多版本的形式存储,进 一步包括: 将视频应用的用户需求以事务描述文件的形式提交到云存储系统的客户端,当一 个事务被提交时,客户端根据数据分块信息把事务划分成多个子事务来并行执行,每个子 事务关联着一个数据块,以将不同子事务分布到不同的节点上执行,所述数据分块信息通 过树Tr来描述,Tr= (C,R),其中C是一个数据元素集合,每个元素代表一个数据块;R是 一个二元关系集合每个元素代表两个数据块的内容是否相同,所述数据元素集合C中的元 素Ci可以用一个二元组向量来描述:ci=〈blocki,a,,其中Wocki表示数据块i的编号, %表示数据块i所在节点的编号,所述二元关系集合R中的元素rM表示数据块j是数据 块i的备份版本。 优选地,每个所述数据节点都有一个调度进程,不同节点的调度进程根据所在数 据节点的虚拟机的当前状态和客户端的调度进程通信,传递事务调度和控制信息,客户端 的调度进程根据查询到的视频数据分块信息树Tr将事务划分成子事务后,根据二元关系 集合R将数据节点执行聚类,聚类规则为: 对于任意节点a"a#Dm,如果Dm并且a#a」,则存在!Ti,R 其中Dm为存储同一个数据块m的所有数据节点组成的聚类集合,客户端的调度进 程在Dm内选择一个最佳节点来执行任务; 如果数据节点的调度进程接受了一个事务,则该事务根据其优先级插入这个节点 的等待事务队列,或者抢占其它低优先级的事务立即执行,在事务执行完毕后,数据节点的 调度进程就通知客户端的调度进程,使客户端的调度进程进行后继事务的调度。 本专利技术相比现有技术,具有以下优点: 本专利技术提出的方法提高了云平台系统的资源利用率和负载均衡的效果。【附图说明】 图1是根据本专利技术实施例的云平台数据处理方法的流程图。【具体实施方式】 下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描 述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权 利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本专利技术。 本专利技术在云计算环境下,对处理视频数据的事务以及事务调度与资源分配方法进 行建模,在此模型下提出了一种面向视频数据的事务调度方法。该方法以云存储系统中视 频数据文件的分块多版本存储形式为基础来规划并行处理事务,以数据块和版本的映射关 系为特征对云平台中数据节点执行聚类,以已执行完毕事务的反馈信息为基础来动态调度 未执行事务,以此来提高系统资源利用率和负载均衡的效果。图1是根据本专利技术实施例的 云平台数据处理方法流程图。 视频应用中的用户需求以事务描述文件的形式提交到云存储系统的客户端。当一 个事务被提交时,客户端根据数据分块信息把该事务划分成多个子事务来并行执行。每个 子事务关联着一个数据块。这样同一个事务中不同子事务就可以分布到不同的节点上执 行,能够避免子事务之间由于资源竞争而造成的瓶颈,更好地适应视频数据处理过程中资 源消耗高的特点。数据分块信息通过树Tr来描述: Tr= (C,R),其中C是一个数据元素集合,其中的元素代表一个数据块;R是一个 二元关系集合,其中的元素代表两个数据块的内容是否相同。数据元素集合C中的元素Ci 可以用一个二元组向量来描述:Ci= <bl(K;ki,a, 其中bl(x;ki表示数据块i的编号,ai表示数据块i所在节点的编号。二元关系集合 R中的元素ry表示数据块j是数据块i的副本版本。在随机的时间事务被提交到云存储 系统的客户端,提交到客户端的事务流可以描述为J=Uc^J1,J2,Ji,…,Jlri,Jj 其中上可用六元组向量来描述:ji=〈transidi,(IeciCli,IfileiCli,Ieveli,rcvJi, encLti〉,其中transid为事务编号,(IeciCl为事务描述文件编号,HleiCl为事务需要处理的 视频数据文件编号,level为事务的优先级,rcv_t为事务的提交时间,end_t为完成该事务 的截止时间。提交的事务ji被客户端划分为多个子事务。划分后的子事务可以用一个有 向图GR来描述: GR=〈V,E> 顶点集合V中的每个元素代表一个子事务。对于子事务Vi用一个九元组向量来 描述:Vi=〈taskidi,transidptype"Wli,Cpui,Iiiemi,disk"bandpblocks〉 taskid为子事务编号,transid为子事务所属事务编号,type为子事务类型,wl负 载量(百万指令级),cpu,mem,disk,band为子事务执行时占用虚拟机中的抽象资源(CPU, 内存,磁盘和带宽)数量。虽然在虚拟机的抽象资源中,CPU资源可以在多个不同子事务之 间分时复用,但是相当一部分视频程序属于计算密集型事务(例如编解码),对于CPU资源 消耗相当大,多个计算密集型事务同时在一个CPU核上运行,会导致执行速度急剧降低,因 此需要限制一个处理机上的计算密集型事务的数量。因此也将CPU资源抽象成数量来度 量,将一个处理机抽象成4个CPU资源。blockid为事务需要处理的数据块编号。边集合E 中的每个元素代表两个子事务之间的一个依赖关系。eM(ei^eE)表示子事务Vi是子事 务 '的前驱,子事务 '是子事务V 后继。 结合视频数据处理的特点,在本专利技术提出的事务调度和资源分配模型中每个数据 节点都有一个调度进程。这些调度进程知道它们所在数据节点的虚拟机的当前状态。并且 不同节点的调度进程能够和客户端的调度进程通信,传递事务调度和控制信息。客户端的 调度进程根据查询到的视频数据分块信息树Tr将事务划分成子事务后,根据二元关系集 合R将数据节点执行聚类,聚类规则如下: af Dm,对于任意a"如果Dm,a# a」,则存在!Ti,R 存储同一个数据块m的所有数据节点组成一个聚类集合Dm,ai为聚类集合Dm内的 一个节点。客户端的调度进程从提高资源利用率和负载均衡的角度在Dm内选择一个最佳 节点来执行任务。 如果数据节点的调度进程接受了一个事务,则该事本文档来自技高网...

【技术保护点】
一种云平台数据处理方法,其特征在于,包括:将云存储系统中的视频数据文件以数据分块多版本的形式存储并规划并行处理事务,以数据块和版本之间的映射关系为特征,对云平台中多个数据节点执行聚类,根据已执行的事务的反馈信息来动态调度未执行的事务。

【技术特征摘要】

【专利技术属性】
技术研发人员:高爽
申请(专利权)人:成都博元科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1