一种海量维度数据关联查询优化方法及系统技术方案

技术编号：29584187 阅读：13 留言：0更新日期：2021-08-06 19:42

本发明专利技术提供了一种海量维度数据关联查询优化方法及系统，包括数据写入步骤：将维度表数据写入到不同的分片表中；任务对应步骤：启动多个任务，每个任务对应一个或者多个分片表；数据查询步骤：多个任务分别查询对应的分片表的数据；数据合并步骤：将多个任务查询到的数据结果进行合并；数据输出步骤：输出合并的数据。本发明专利技术优化了海量维度数据关联查询的性能。通过预过滤维度表字段，加速基于维度表字段的过滤的关联。分任务处理关联查询，每个任务只处理自己所需部分的数据。预过滤分片减少后续步骤处理的数据量。事实表支持多个维度表的关联，事实表可在保证全表扫描的性能的情况下，进行快速的维度关联。能很好的处理以星形模型组织的数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种海量维度数据关联查询优化方法及系统
本专利技术涉及数据处理领域，具体地，涉及一种海量维度数据关联查询优化方法及系统。
技术介绍
在一些联机分析处理(OLAP)中，基于大宽表的存储方案有时不能满足需求，比如需要更新维度信息时，更新所有的数据的代价太过昂贵。又或者冗余数据过多导致数据写入性能达不到要求，或者磁盘占用较多。在一些场景中我们仍然不可避免的需要使用关联查询。在现有的OLAP系统中已经提供了一些优化方案，比如基于内存的字典表等。但还是无法很好的应对海量数据的关联场景。专利文献为CN110704698A的专利技术专利公开了一种非结构化海量网络安全数据的关联及查询方法，包括如下步骤：建立二级索引并基于二级索引进行海量网络安全数据快速查询，完成网络安全数据的初次关联；基于网络安全数据可信度值进行迭代计算，实现所述网络安全数据的关联；对实现了关联的所述网络安全数据进行有效性判定；用户通过数据查询接口提交数据查询任务，查询已经建立的所述二级索引数据，获取所述数据关联任务对应的数据主键值，通过该数据主键值查询所述网络安全数据库的关联数据表，获取对应的网络安全数据及其关联数据。本专利技术明显提高了对于海量互联网用户信息，或者与海量互联网用户信息数据关联的效率，保证了网络安全数据关联结果的有效性、准确性。上述方案使用主键关联，所有数据都是对应的单一实体，二级索引指的是特征值到主键，目的是实现关联的功能。是单一的关联查询任务。无法减少关联任务的数据量。
技术实现思路
针对现有技术中的缺陷，本专利技术...

【技术保护点】
1.一种海量维度数据关联查询优化方法，其特征在于，包括如下步骤：/n数据写入步骤：将维度表数据写入到不同的分片表中；/n任务对应步骤：启动多个任务，每个任务对应一个或者多个分片表；/n数据查询步骤：多个任务分别查询对应的分片表的数据；/n数据合并步骤：将多个任务查询到的数据结果进行合并；/n数据输出步骤：输出合并的数据。/n

【技术特征摘要】
1.一种海量维度数据关联查询优化方法，其特征在于，包括如下步骤：
数据写入步骤：将维度表数据写入到不同的分片表中；
任务对应步骤：启动多个任务，每个任务对应一个或者多个分片表；
数据查询步骤：多个任务分别查询对应的分片表的数据；
数据合并步骤：将多个任务查询到的数据结果进行合并；
数据输出步骤：输出合并的数据。

2.根据权利要求1所述的海量维度数据关联查询优化方法，其特征在于，还包括事实表数据查询步骤：调用数存储的据库对事实表的数据进行查询。

3.根据权利要求1所述的海量维度数据关联查询优化方法，其特征在于，还包括关联过滤步骤：基于每个任务对应的分片表过滤出事实表的信息进行关联，事实表创建关联字段的索引，并根据任务的分片信息，进行数据过滤。

4.根据权利要求1所述的海量维度数据关联查询优化方法，其特征在于，还包括预过滤步骤：对不同的分片表进行预过滤，再将任务对应过滤后的分片表。

5.根据权利要求1所述的海量维度数据关联查询优化方法，其特征在于，每个任务对应的分片表的数量由并行参数决定。

【专利技术属性】
技术研发人员：朱晓峰，蔡晓华，
申请(专利权)人：上海天旦网络科技发展有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人