一种针对复杂查询的分组入数据集市方法技术

技术编号：24331134 阅读：30 留言：0更新日期：2020-05-29 19:38

本发明专利技术公开了一种针对复杂查询的分组入数据集市方法，在数据从数据源抽取到数据集市的过程中，对有复杂需求的数据抽取，针对可能会产生复杂的数据源查询的情况，提出了一种分组的加速入集市方法。首先通过对源数据分组列的特征分析判断出否能分组，然后根据分组列的不同值进行拆分，最后将拆分后的数据导入数据集市。为了加速入集市的过程，同时减少内存压力，数据将以“块”的单位进行处理，数据拆分过程和数据导入过程将同步进行。

A method of grouping into data marts for complex queries

全部详细技术资料下载

【技术实现步骤摘要】
一种针对复杂查询的分组入数据集市方法
本专利技术涉及数据集市存储
，更具体的说是涉及一种针对复杂查询的分组入数据集市方法。
技术介绍
目前，现代信息技术已进入大数据时代。如何快捷的构建满足特定用户和部门的需求的数据存储，已成为数据中心急需解决的问题。数据集市是从企业范围内的数据仓库，数据库或者各种各样的数据源抽取出来，按照列式数据进行存储的一种面向决策分析需求的数据立方体。其中包括维度，维度的层次，需要计算的度量等。在各种各样的海量源数据导入到数据集市过程中，对于复杂的抽取需求，其查询性能可能呈数量级单位的下降。解决复杂数据抽取所衍生出来的复杂查询导入数据集市的性能问题成为迫切需要。源数据导入数据集市大体可以分为三步。首先，连接数据源进行源数据查询、抽取、加工，并把查询结果加载至内存中；其次，对内存中的数据进行列式压缩，数据重新组织为列式存储；最后，生成具体的数据块文件，分发到数据集市节点中存储。由于需求的多样性和复杂性，对源数据的查询，抽取加工处理可能会转化为源数据的复杂查询。但是，传统对复杂查询分组...

【技术保护点】
1.一种针对复杂查询的分组入数据集市方法，其特征在于，包括如下具体步骤：/n步骤1：加载源数据，对所述源数据进行复杂查询，并在所述复杂查询中加入分组列的排序信息，对所述源数据进行特征分析，满足分割特征的所述源数据存储至内存中；否则，所述源数据按照所述排序信息的顺序生成数据块并导入至数据集市节点；/n步骤2：在所述内存中对所述源数据根据所述分组列的不同值进行分割，获得所述数据块；/n步骤3：在所述数据块中增加元数据信息，获得增强数据块；/n步骤4：将所述增强数据块进行压缩，获得压缩数据块，并将所述压缩数据块分发到所述数据集市节点。/n

【技术特征摘要】
1.一种针对复杂查询的分组入数据集市方法，其特征在于，包括如下具体步骤：
步骤1：加载源数据，对所述源数据进行复杂查询，并在所述复杂查询中加入分组列的排序信息，对所述源数据进行特征分析，满足分割特征的所述源数据存储至内存中；否则，所述源数据按照所述排序信息的顺序生成数据块并导入至数据集市节点；
步骤2：在所述内存中对所述源数据根据所述分组列的不同值进行分割，获得所述数据块；
步骤3：在所述数据块中增加元数据信息，获得增强数据块；
步骤4：将所述增强数据块进行压缩，获得压缩数据块，并将所述压缩数据块分发到所述数据集市节点。

2.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法，其特征在于，源数据加载复杂查询过程、源数据分割过程和添加信息压缩数据块入所述数据集市的过程，分别设置为三个线程模型，并采用数据流式处理进行并行处理。

3.根据权利要求1所述的一种针对复杂查询的分组入数据集市方法，其特征在于，在所述步骤1中进行所述复杂查询时，在数据查询层根据所述分组列的所述排序信息对所述源数据进行排序。

4...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：北京永洪商智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人