【技术实现步骤摘要】
RDDpartition内部数据索引建立方法、点查方法及joinRDD点查方法
本专利技术涉及RDD索引领域,具体涉及一种RDD的partition内部数据索引建立方法、RDD点查方法及joinRDD点查方法。
技术介绍
随着大数据处理的发展,对于处理速度的要求越来越高,传统的基于磁盘存储的分布式大数据处理平台在应对大数据处理,尤其是机器学习和迭代运算等类型的数据处理时越来越力不从心。内存计算技术应运而生,内存计算是基于内存的,不需要在处理过程中频繁的将中间结果存入磁盘,因此避免了不必要的I/O开销。内存计算技术带来的优势是显著的。首先,其能够有效加速对海量数据的复杂分析处理,帮助企业快速、准确地制定决策,积极响应市场变化;其次,内存计算将改变传统的OLTP(OnlineAnalyticalProcessings,联机事务处理)与OLAP(OnlineTransactionProcessing,联机分析处理)分离的数据处理现状,在系统级别(非接口级别)实现两者的融合,加速数据从产生到分析性报告出具的过程。现有 ...
【技术保护点】
1.一种RDD的partition内部数据索引建立方法,其特征在于,包括以下步骤:/nS1-1,定义一个存放partition内部数据索引的Array,该Array的元素为HashMap类型,一个HashMap对应一个partition;/nS1-2,依次遍历partition中的所有数据,判断所遍历到的数据对应的key是否包含在对应HashMap中;/nS1-3,若不包含在对应HashMap中,则创建一个ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中,然后将(key,ArrayBuffer)存入到该对应HashMap中;/ ...
【技术特征摘要】
1.一种RDD的partition内部数据索引建立方法,其特征在于,包括以下步骤:
S1-1,定义一个存放partition内部数据索引的Array,该Array的元素为HashMap类型,一个HashMap对应一个partition;
S1-2,依次遍历partition中的所有数据,判断所遍历到的数据对应的key是否包含在对应HashMap中;
S1-3,若不包含在对应HashMap中,则创建一个ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中,然后将(key,ArrayBuffer)存入到该对应HashMap中;
S1-4,若包含在对应HashMap中,则获得该key在HashMap中对应的ArrayBuffer,并将该key在partition中的位置加入到该ArrayBuffer中。
2.根据权利要求1所述的RDD的partition内部数据索引建立方法,其特征在于,步骤S1-2至S1-4所述过程定义在一process函数中。
3.根据权利要求2所述的RDD的partition内部数据索引建立方法,其特征在于,将所述process函数和partition列表作为参数传入RDD中,返回结果即为包含各个partition内部数据索引的RDD索引。
4.根据权利要求3所述的RDD的partition内部数据索引建立方法,其特征在于,通过调用SparkContext的runJob接口,将所述process函数和partition列表作为参数传入RDD中。
5.根据权利要求1、2、3或4所述的RDD的partition内部数据索引建立方法,其特征在于,步骤S1-1之前还包括步骤:<...
【专利技术属性】
技术研发人员:黄伟,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。