一种对非分区表进行分区并行读取的方法及装置制造方法及图纸

技术编号：22308194 阅读：19 留言：0更新日期：2019-10-16 08:18

本发明专利技术涉及数据处理技术领域，具体涉及一种对非分区表进行分区并行读取的方法及装置，其中方法包括：对数据库中的非分区表进行分区定义；基于所述分区定义对非分区表进行分区，得到对应的多个分区；根据每个分区的属性动态生成分区查询语句，并将多个分区分配给多个工作线程读取。在进行分区定义时，支持的列类型为数值型、日期时间和字符型，支持的分区类型为范围分区和枚举分区。通过为非分区表进行分区定义来模拟关系数据库中的表分区，并根据每个模拟的分区动态生成该分区查询语句，然后将分区平均分配给多个工作线程读取，实现了对非分区表的分区并行读取，提高数据抽读取性能，减少了抽取时间以及报错概率。

A method and device for parallel reading of non partitioned tables

全部详细技术资料下载

【技术实现步骤摘要】
一种对非分区表进行分区并行读取的方法及装置
本专利技术涉及数据处理
，具体涉及一种对非分区表进行分区并行读取的方法及装置。
技术介绍
分区表是关系数据库中普遍提供的一种将表分成若干个相对独立的分区，从而提升数据访问的性能的技术。合理使用分区表，可以解决普通表随着数据量的增加，数据的访问性能不断下降的问题。在数据集成项目实施的过程中，当源表数据量较大时，由于抽取时间通常比较长，会导致以下问题：1)需要长时间占用源数据库的资源，影响源数据库性能。2)占用数据库资源过长，超过数据库允许的查询时间，导致数据库报错，数据抽取中止。3)单次数据抽取时间过长，导致网络故障引起抽取失败的风险大大提高。对于上述问题，传统的解决方案是：如果源表为分区表，则先查询出数据库中该表的各个分区，然后并发查询读取每个分区的数据。然而，在实际使用过程中，并非所有数据量较大的表都是分区表，一方面是因为分区表创建较为复杂，用户最开始使用时对数据量估计不足或者设计时没有考虑到，导致没有使用分区表，这种情况很普遍；另一方面是因为分区表通常使用上会有些限制，比如mysql的分区表不能有外键等导致不能使用分区表。如果数据库中的源表为非分区表，则无法解决上述问题。鉴于此，克服上述现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
本专利技术需要解决的技术问题是：在数据集成过程中，当源表数据量较大时，抽取时间通常比较长，会导致数据抽取性能下降、报错、网络故障等问题，如果源表为分区表，可实现分区并行读取，但并非所有数据量较大的表都是分区表，如果源表为非分区表，不能实现分区并行读取...

【技术保护点】
1.一种对非分区表进行分区并行读取的方法，其特征在于，包括：对数据库中的非分区表进行分区定义；基于所述分区定义对非分区表进行分区，得到对应的多个分区；根据每个分区的属性动态生成分区查询语句，并将多个分区分配给多个工作线程读取。

【技术特征摘要】
1.一种对非分区表进行分区并行读取的方法，其特征在于，包括：对数据库中的非分区表进行分区定义；基于所述分区定义对非分区表进行分区，得到对应的多个分区；根据每个分区的属性动态生成分区查询语句，并将多个分区分配给多个工作线程读取。2.根据权利要求1所述的对非分区表进行分区并行读取的方法，其特征在于，所述对数据库中的非分区表进行分区定义具体为：在数据集成工具内，根据非分区表的数据特征从数据库中选择合适的分区列，使得非分区表中的数据能够均匀分布到各个分区；判断选择的各分区列的类型，并根据分区列类型确定需要定义的分区类型；用户根据需要定义的分区类型给出所需的相关参数，完成相应的分区定义。3.根据权利要求2所述的对非分区表进行分区并行读取的方法，其特征在于，在进行分区定义时，支持的分区列类型包括数值型、日期时间型以及字符型，支持的分区类型包括范围分区和枚举分区；当分区列类型为数值型或者日期时间型时，使用范围分区；当分区列为字符型时，使用枚举分区；当定义范围分区时，用户给出的相关参数包括：分区列名称、分区列的最小值估计值、最大值估计值以及希望的分区数；当定义枚举分区时，用户给出的相关参数包括：分区列名称和每个可能的枚举值。4.根据权利要求3所述的对非分区表进行分区并行读取的方法，其特征在于，所述基于所述分区定义对非分区表进行分区，得到对应的多个分区，具体包括：读取所述分区定义，并根据所述分区定义判断分区类型；对不同的分区类型分别采用不同的方法计算分区范围，得到对应的多个分区。5.根据权利要求4所述的对非分区表进行分区并行读取的方法，其特征在于，对于范围分区，计算分区范围的过程具体为：判断分区列类型，如果分区列类型为日期时间型则转换为数值型；根据用户给出的希望的分区数，确定最终分区数量；根据用户给出的分区列的最大值估计值、...

【专利技术属性】
技术研发人员：付铨，梅纲，高东升，
申请(专利权)人：武汉达梦数据库有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人