RDD partition内部数据索引建立方法、点查方法及joinRDD点查方法技术

技术编号:24574002 阅读:29 留言:0更新日期:2020-06-21 00:07
本发明专利技术公开一种RDD的partition内部数据索引建立方法、RDD点查方法及join RDD点查方法,对RDD Partition内部数据建立索引,使用HashMap来存放每条数据在Partition的位置信息,所有Partition的索引组合行程RDD的索引,在进行key的查找时,不需要遍历Partition中的所有数据,而是直接通过HashMap查找到key在Partition中的位置,然后利用Partition Iterator的slice接口直接从Partition的特定位置获取对应的value。解决了Spark原生lookup API性能不佳的问题,达到了提高查询效率的技术效果。另外可以通过对需要join的两个RDD创建索引,然后对索引执行查询的方式,来避免RDD的实际join,可有有效防止OOM的发生,并且提高查询的效率。

RDD partition internal data index building method, point query method and joinrdd point query method

【技术实现步骤摘要】
RDDpartition内部数据索引建立方法、点查方法及joinRDD点查方法
本专利技术涉及RDD索引领域,具体涉及一种RDD的partition内部数据索引建立方法、RDD点查方法及joinRDD点查方法。
技术介绍
随着大数据处理的发展,对于处理速度的要求越来越高,传统的基于磁盘存储的分布式大数据处理平台在应对大数据处理,尤其是机器学习和迭代运算等类型的数据处理时越来越力不从心。内存计算技术应运而生,内存计算是基于内存的,不需要在处理过程中频繁的将中间结果存入磁盘,因此避免了不必要的I/O开销。内存计算技术带来的优势是显著的。首先,其能够有效加速对海量数据的复杂分析处理,帮助企业快速、准确地制定决策,积极响应市场变化;其次,内存计算将改变传统的OLTP(OnlineAnalyticalProcessings,联机事务处理)与OLAP(OnlineTransactionProcessing,联机分析处理)分离的数据处理现状,在系统级别(非接口级别)实现两者的融合,加速数据从产生到分析性报告出具的过程。现有的内存计算平台应用最本文档来自技高网...

【技术保护点】
1.一种RDD的partition内部数据索引建立方法,其特征在于,包括以下步骤:/nS1-1,定义一个存放partition内部数据索引的Array,该Array的元素为HashMap类型,一个HashMap对应一个partition;/nS1-2,依次遍历partition中的所有数据,判断所遍历到的数据对应的key是否包含在对应HashMap中;/nS1-3,若不包含在对应HashMap中,则创建一个ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中,然后将(key,ArrayBuffer)存入到该对应HashMap中;/nS1-4,若包含在...

【技术特征摘要】
1.一种RDD的partition内部数据索引建立方法,其特征在于,包括以下步骤:
S1-1,定义一个存放partition内部数据索引的Array,该Array的元素为HashMap类型,一个HashMap对应一个partition;
S1-2,依次遍历partition中的所有数据,判断所遍历到的数据对应的key是否包含在对应HashMap中;
S1-3,若不包含在对应HashMap中,则创建一个ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中,然后将(key,ArrayBuffer)存入到该对应HashMap中;
S1-4,若包含在对应HashMap中,则获得该key在HashMap中对应的ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中。


2.根据权利要求1所述的RDD的partition内部数据索引建立方法,其特征在于,步骤S1-2至S1-4所述过程定义在一process函数中。


3.根据权利要求2所述的RDD的partition内部数据索引建立方法,其特征在于,将所述process函数和partition列表作为参数传入RDD中,返回结果即为包含各个partition内部数据索引的RDD索引。


4.根据权利要求3所述的RDD的partition内部数据索引建立方法,其特征在于,通过调用SparkContext的runJob接口,将所述process函数和partition列表作为参数传入RDD中。


5.根据权利要求1、2、3或4所述的RDD的partition内部数据索引建立方法,其特征在于,步骤S1-1之前还包括步骤:<...

【专利技术属性】
技术研发人员:黄伟
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1