一种电力销售大数据处理方法技术

技术编号:20825198 阅读:28 留言:0更新日期:2019-04-10 07:20
本发明专利技术涉及一种电力销售大数据处理方法,其基于Alluxio建立分层式缓存调度框架,将数据访问模式和缓存策略以及上层大数据应用融合,建立不同数据访问模式的缓存调度策略,最后基于Alluxio建立分层式大数据存储缓存调度框架和验证系统;本发明专利技术针对分层式大数据存储系统,设计并提供一个通用化可扩展的分层式缓存调度框架,通过该框架,将不同的数据访问模式和缓存策略以及上层的大数据应用融合起来,并为用户提供一组覆盖多种不同数据访问模式的高效缓存调度策略,从而加速上层大数据应用的数据读写访问性能。

【技术实现步骤摘要】
一种电力销售大数据处理方法
本专利技术涉及一种电力销售大数据处理方法。
技术介绍
近十年来,在业界和学术界的积极推动和研究下,大数据处理技术在技术栈的各个层次都己经得到了长足的发展和进步。但是,面临日益快速发展的大数据应用需求,大数据处理技术还存在以下几个方面有待进一步研究解决的技术问题:1)分布式存储系统性能优化和功能增强:大数据存储系统处于大数据处理软件系统的底层,对于上层大数据应用有很大的性能影响,是进行后续大数据计算分析和提供大数据应用服务的重要基础。第一,存储硬件发展迅速,大数据存储应用场景也复杂多变。因此,现有的大数据存储系统,尤其是使用日益广泛的层次化存储系统,需要不断地进行性能提升和功能增强,以满足大数据应用对大规模数据快速读写访问的性能需求。第二,众多分布式文件系统的性能特性和配置参数对上层应用的性能影响较大,分布式文件系统的用户也需要能够定量和定性地分析选择最为合适的分布式文件系统和配置参数。第三,日益产生的大规模众多垂直领域的数据(如RDF语义数据)也急需有效的存储管理和查询手段。2)主流大数据计算平台的性能提升和功能增强:目前以ApacheHadoop和ApacheSpark为主的大数据技术框架己经成为了主流的大数据处理平台,并得到了广泛的应用。然而,主流大数据并行计算系统在设计与实现的过程中通常只重点考虑某类大数据应用的共性问题,这些系统在处理种类繁多的上层大数据应用时,还需要进一步的性能优化提升和功能增强,以提升上层应用的计算性能。3)典型大数据分析应用算法的并行化设计:大数据的核心价值体现在应用,然而当数据规模增长到数百TB规模或者PB级规模时,现有串行化算法将会带来难以接受的时间开销,使得应用算法失效。因此,除了寻找计算复杂度较低的新算法以及降低数据尺度等方法外,一个重要的方法是研究应用相关核心算法的并行化。大数据应用分析算法的并行化设计并无标准统一的方法,而是要根据具体的算法进行特定的并行化优化设计。一般性较为简单的机器学习和数据分析算法的并行化设计相对较为容易,但复杂的机器学习和数据挖掘算法的并行化设计则相对较为困难。随着大数据应用的不断推广,需要深入研究典型的大数据应用的复杂分析算法的并行化。
技术实现思路
本专利技术所要解决的技术问题是提供一种大数据处理方法,采用本方法可以大大高对于大数据的存储及访问速度。本专利技术所采用的技术方案是:一种电力销售大数据处理方法,其包括如下步骤:步骤一、基于Alluxio建立分层式缓存调度框架,将数据访问模式和缓存策略以及上层大数据应用融合;步骤二、基于步骤一形成的分层式缓存调度框架,建立不同数据访问模式的缓存调度策略;步骤三、基于Alluxio建立分层式大数据存储缓存调度框架和验证系统。所述分层式缓存调度框架包括大数据应用层、数据访问模式层、缓存策略层以及分布式分层式存储系统。分布式分层式存储系统的每个Worker数据存储服务器工作节点均包含MEM-SSD-HDD的三层存储系统。Alluxio系统分层式存储缓存调度工作过程是:当客户端发起一个请求向Worker申请空间的时候,如果Worker的MEM层有足够的空余空间,那么会直接分配空间给客户端:如果Worker的MEM层没有足够的空余存储空间,那么将递归地替换Evict部分数据块到下一层存储层。在分层式缓存调度框架内设置有用于获取所有数据块行为动作的监听器。缓存策略层采用的缓存策略包括LRU、LRFU、LIRS以及ARC。数据访问模式层采用的数据访问模式包括Recency-friendly、Frequency-friendly、Loop以及Mixed。大数据应用层的分布式应用包括MachineLearning、SQLQuery、GraphComputation、StreamingProcessing。所述Recency-friendly数据访问模式的基本形式是:(a1,a2,...,ak-1,ak,ak,ak-1,...,a2,a1)N其中,k表示数据块的个数,N表示循环访问的次数。所述Frequency-friendly数据访问模式基本形式是:((a1,a2,...,ak-1,ak)APε(b1,b2,...,bm))N其中,k表示被访问超过一次的数据块个数,A表示循环访问这k个数据块的次数;m表示在一轮访问中只被访问一次的数据块个数,凡表示访问这m个数据块的概率;N表示整个访问过程循环的次数;当k<cachesize的时候,访问次数超过一次的数据块完全存放到cache,而k+m>cachesize的时候,cache存放不下所有的数据块,部分数据块被替换出当前的cache。本专利技术的积极效果为:本专利技术针对分层式大数据存储系统,设计并提供一个通用化可扩展的分层式缓存调度框架,通过该框架,将不同的数据访问模式和缓存策略以及上层的大数据应用融合起来,并为用户提供一组覆盖多种不同数据访问模式的高效缓存调度策略,从而加速上层大数据应用的数据读写访问性能。缓存调度框架本身具有很好的通用性,是平台独立的,其架构、访问模式和缓存策略可以适用于任何分层式存储系统。附图说明图1为本专利技术分层式缓存调度框架;图2为本专利技术Alluxio的总体架构;图3为本专利技术Alluxio系统分层式存储缓存调度工作过程;图4为本专利技术Alluxio系统分层式存储缓存调度软件结构。具体实施方式Alluxio是一个统一的大数据存储系统,它可以支持基于MEM-SSD-HDD(内存一固态盘一硬盘)的分层式大数据分布式存储管理。Alluxio早期名称为Tachyon[91],出自加州大学伯克利分校的AMP实验室。其初期的主要设计思想是,使用分布式内存来存储管理数据,从而加速大数据存储系统的读写速度。然而,虽然目前的大数据处理服务器节点上内存配置容量己经较高(64GB,甚至128GB或256GB),但相对于实际应用中的TB甚至PB级数据规模而言,完全基于内存来存储管理大规模数据仍然是远远不够的,因而,需要基于MEM-SSD-HDD的分层式大数据分布式存储体系结构,对存储数据进行基于内存的缓存调度处理。在这种分层式存储场景下,需要研究基于大规模分层式存储结构的内存缓存调度策略与技术方法,以尽可能提高数据在分布式内存缓存层中访问的命中率,以此发挥内存数据存储在读写访问性能上的优势。这就是本节研究问题和研究动机的由来。在分层式大数据存储系统中,存储设备被按层次组织在一起,并且性能越高的存储设备离CPU越近。类似的系统架构己经在CPU缓存中使用了数十年。访问比较频繁的数据会被优先存储到访问性能更高的存储介质中,如内存或者SSD,而较少被访问的数据会被移到访问速度较低的HDD层。由于性能越高的存储介质,其价格越高、配置容量相对越小,因此,在这种分层式存储系统中,随着数据访问的变化,通常需要对存储在高性能介质中的数据,依据一定的缓存替换策略进行替换,这就需要有高效的缓存替换策略。因此,在分层式分布式数据存储环境中,高效缓存调度策略的设计和使用是一个非常重要的问题。基于此,本专利研究并提出了一种适用于分层式大数据存储系统的通用可扩展的缓存调度框架,允许方便地添加定制化的缓存策略,从而在不同的应用场景里取得较好的性能。进一步,根据数据访本文档来自技高网
...

【技术保护点】
1.一种电力销售大数据处理方法,其特征在于其包括如下步骤:步骤一、基于Alluxio建立分层式缓存调度框架,将数据访问模式和缓存策略以及上层大数据应用融合;步骤二、基于步骤一形成的分层式缓存调度框架,建立不同数据访问模式的缓存调度策略;步骤三、基于Alluxio建立分层式大数据存储缓存调度框架和验证系统。

【技术特征摘要】
1.一种电力销售大数据处理方法,其特征在于其包括如下步骤:步骤一、基于Alluxio建立分层式缓存调度框架,将数据访问模式和缓存策略以及上层大数据应用融合;步骤二、基于步骤一形成的分层式缓存调度框架,建立不同数据访问模式的缓存调度策略;步骤三、基于Alluxio建立分层式大数据存储缓存调度框架和验证系统。2.根据权利要求1所述的一种电力销售大数据处理方法,其特征在于所述分层式缓存调度框架包括大数据应用层、数据访问模式层、缓存策略层以及分布式分层式存储系统。3.根据权利要求1所述的一种电力销售大数据处理方法,其特征在于分布式分层式存储系统的每个Worker数据存储服务器工作节点均包含MEM-SSD-HDD的三层存储系统。4.根据权利要求1所述的一种电力销售大数据处理方法,其特征在于Alluxio系统分层式存储缓存调度工作过程是:当客户端发起一个请求向Worker申请空间的时候,如果Worker的MEM层有足够的空余空间,那么会直接分配空间给客户端:如果Worker的MEM层没有足够的空余存储空间,那么将递归地替换Evict部分数据块到下一层存储层。5.根据权利要求1-4任一项所述的一种电力销售大数据处理方法,其特征在于在分层式缓存调度框架内设置有用于获取所有数据块行为动作的监听器。6.根据权利要求2所述的一种电力销售大数据处理方法,其特征在于缓存策略层采用的缓存策略包括LRU、LRFU、LIRS以及ARC。7....

【专利技术属性】
技术研发人员:王芳李宏峰李冲贺子洋郭燕安诗璇曹哲杜茜刘婷婷张仕文王曦吴蔚翟天月范盛荣刘保安
申请(专利权)人:国网河北省电力有限公司石家庄供电分公司国网河北省电力有限公司国家电网有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1