一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法技术

技术编号：17196296 阅读：35 留言：0更新日期：2018-02-03 22:56

本发明专利技术提供了一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法。把数据集A平均分成N段，分完段以后把每段的第一条记录的主键键值读出来，与数据集A对应的数据集B也得分段，根据数据集A中每段的第一条记录的主键键值用二分法找到数据集B中对应的每段第一条记录的关联键键值。找到数据集B中的每一段的起始点以后，对数据集B按起始点进行分段；每个线程分别单独用归并算法计算一对一join同维数据集A和B分的每一个对应关联的段，数据集A和B分的段在计算时只需要各自遍历一次，计算完以后的合并数据集为C，最后再把这些分段计算后的合并数据集C组成最终的数据集D，然后就可以在数据集D中引用需要的记录了。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法
本专利技术涉及并行计算一对一join、一对多join，更具体地来说，特别涉及一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法。
技术介绍
随着全球对知识产权的重视，其中专利技术专利的发展趋势越来越好，各行业各领域申请授权的专利技术专利的数量日趋庞大，特别是机械、生物、化工、医药、互联网行业更是如此。面对这些大量的已经授权的专利技术专利，合理利用这些现有的已知技术显的重中之重。于是出现了很多利用遗传资源衍生出的专利技术专利，利用现有的已经授权的已知技术进行技术层面的改造升级等。本专利技术正是基于专利技术“一种用归并算法计算一对一join、一对多join的方法”衍生出来的。依据专利法的要求，陈述本专利技术专利直接来源是申请号为201710931999.5的专利技术专利，申请号为201710931999.5的专利技术专利在申请过程中提前公布，与本专利技术专利申请人同为“北京润乾信息系统技术有限公司”，专利技术人蒋步星，专利技术人通过对申请号为201710931999.5的专利技术专利深入的研究，在原有专利技术层面上进行了突破。本专利技术专利应用于难以实现的并行计算一对一join、一对多join。由于单核CPU速度提升的局限性，提升计算机速度的主要途径是使用多核CPU。多核CPU的普及对数值计算的发展产生了历史性的改变，由于多核和单核CPU设计理念的不同，单核CPU上运行良好的软件或者以前的算法不能使多核CPU发挥其最大效能，要想高效利用多核CPU，就必须改进原有...
一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法

【技术保护点】
一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法，步骤如下：a.对在外存中的数据集A和B进行如下准备工作，同维数据集关系按照它们的主键排序，主子数据集关系主数据集A按照它的主键排序，子数据集B按关联主键的键排序或者全部和主键有关系的键排序，把这些准备计算join的历史数据集全部保存好；b.把数据集A平均分成N段，分完段以后把每段的第一条记录的主键键值读出来，与数据集A对应的数据集B也得分段，如果不分段数据就不对应出现错位了；c.因为数据集B的关联键与数据集A的主键是对应关系，而数据集B是根据关联键进行排序的，就可以根据数据集A中每段的第一条记录的主键键值用二分法找到数据集B中对应的每段第一条记录的关联键键值；d.找到数据集B中的每一段的起始点以后，对数据集B按起始点进行分段；e.把数据集A和B分成N段以后，每个线程分别单独用归并算法计算一对一join同维数据集A和B分的每一个对应关联的段，数据集A和B分的段在计算时只需要各自遍历一次，计算完以后的合并数据集为C，最后再把这些分段计算后的合并数据集C组成最终的数据集D，然后就可以在数据集D中引用需要的记录了。并行...

【技术特征摘要】
1.一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法，步骤如下：a.对在外存中的数据集A和B进行如下准备工作，同维数据集关系按照它们的主键排序，主子数据集关系主数据集A按照它的主键排序，子数据集B按关联主键的键排序或者全部和主键有关系的键排序，把这些准备计算join的历史数据集全部保存好；b.把数据集A平均分成N段，分完段以后把每段的第一条记录的主键键值读出来，与数据集A对应的数据集B也得分段，如果不分段数据就不对应出现错位了；c.因为数据集B的关联键与数据集A的主键是对应关系，而数据集B是根据关联键进行排序的，就可以根据数据集A中每段的第一条记录的主键键值用二分法找到数据集B中对应的每段第一条记录的关联键键值；d.找到数据集B中的每一段的起始点以后，对数据集B按起始点进行分段；e.把数据集A和B分成N段以后，每个线程分别单独用归并算法计算一对一join同维数据集A和B分的每一个对应关联的段，数据集A和B分的段在计算时只需要各自遍历一次，计算完以后的合并数据集为C，最后再把这些分段计算后的合并数据集C组成最终的数据集D，然后就可以在数据集D中引用需要的记录了。并行计算一对多join主子数据集A和B的时候，原理和方法同上步骤3、4、5。就是把子数据集主键换成子数据集对应主数据集的关联键。2.如权利要求1所述的一种基于“用归并算法计算一对一join、一对多join”的对位分段并行方法，其特征在于，实施此发明的计算机是多核CPU配置，数据量非常大内存装不下的互相关联数据集A和B，特点是关联键是事先知道并且确定的(此发明的必要条件)。如果数据集A中的主键对应数据集B中的主键，则A和B是一对一join同维数据集；...

【专利技术属性】
技术研发人员：蒋步星，
申请(专利权)人：北京润乾信息系统技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人