一种面向流水线结构化数据查询的数据库智能分区方法技术

技术编号：21891705 阅读：55 留言：0更新日期：2019-08-17 14:26

本发明专利技术公开了一种面向流水线结构化数据查询的数据库智能分区方法，解决了基于pipeline的查询上，广播地从其它存储节点获取执行pipeline所需的数据，网络传输开销大、查询执行时间长，查询性能差的问题。本发明专利技术方法包括：查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求，进行pipeline的划分，并将pipeline的划分情况上传至中心节点；中心节点采用在线k‑means聚类算法计算出存储引擎节点间最优的数据存储布局，其中，聚类结果中的每个簇对应一个存储节点；各存储节点利用增量方式存储当前最优数据布局的数据，直到各个存储节点上的数据皆按照最优的数据布局存储为止，每个存储节点仅保存新布局的数据。

An Intelligent Partitioning Method for Pipeline Structured Data Query

全部详细技术资料下载

【技术实现步骤摘要】
一种面向流水线结构化数据查询的数据库智能分区方法
本专利技术涉及分布式数据库下基于机器学习的有利于pipeline执行的存储引擎存储节点之间数据partition策略
，具体涉及一种面向流水线结构化数据查询的数据库智能分区方法。
技术介绍
分布式数据库中，在查询引擎物理计划优化阶段已划分好pipeline的基础上，一个pipeline对应一个执行节点，每一个执行节点所需的数据都会广播地从除该执行节点所在的存储引擎节点之外的其它所有存储节点获取数据。如图1所示，如果执行节点1落在存储节点1上执行，那么该执行节点就会从除存储节点1之外的其它存储节点上广播地获取所需的数据。如某一pipeline执行所需A表a列的部分数据，但是pipeline所在的执行节点在执行节点1上，也就是存储节点1上，而A表a列的数据分散在所有存储节点，那么执行该pipeline就需要广播地从其它存储节点获取执行所需的数据。又如执行某pipeline需要A表的a，b，c列，a列在该pipeline所在的执行节点上，而b列，c列却不在该pipeline所在的执行节点上，那么该执行节点就需要广播地从其它的存储节点获取b列和c列的数据。然而，以上方式存在一些劣势：广播地从其它存储节点获取执行pipeline所需的数据，极大地增加了网络传输的开销，极大地增加了查询执行时间，进而影响了查询性能。
技术实现思路
本专利技术所要解决的技术问题是：基于pipeline的查询上，广播地从其它存储节点获取执行pipeline所需的数据，极大地增加了网络传输的开销，极大地增加了查询执行时间，进而影响了查询性能...

【技术保护点】
1.一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，该方法包括：查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求，进行pipeline的划分，并将pipeline的划分情况上传至中心节点；中心节点根据查询引擎发送的pipeline划分情况，采用在线k‑means聚类算法计算出存储引擎节点间最优的数据存储布局，其中，聚类结果中的每个簇对应一个存储节点；各存储节点利用增量方式存储当前最优数据布局的数据，直到各个存储节点上的数据皆按照最优的数据布局存储为止，每个存储节点便删除旧布局的数据，而保存新布局的数据。

【技术特征摘要】
1.一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，该方法包括：查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求，进行pipeline的划分，并将pipeline的划分情况上传至中心节点；中心节点根据查询引擎发送的pipeline划分情况，采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局，其中，聚类结果中的每个簇对应一个存储节点；各存储节点利用增量方式存储当前最优数据布局的数据，直到各个存储节点上的数据皆按照最优的数据布局存储为止，每个存储节点便删除旧布局的数据，而保存新布局的数据。2.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，所述pipeline的划分，每一个pipeline的执行对应一个物理计划任务的执行，且一个pipeline对应一个执行节点。3.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，所述将pipeline的划分情况上传至中心节点，是由查询引擎的master节点将每次pipeline划分的情况汇报给中心节点，其中，汇报的内容包括：每个pipeline所含的列属性信息。4.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，还包括计时器，所述中心节点从收到查询请求起便由所述计时器执行计时。5.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法，其特征在于，所述采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局，具体包括：通过中心节点...

【专利技术属性】
技术研发人员：段翰聪，刘长红，姚入榕，闵革勇，梁戈，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人