一种加快数据从openGauss加载到DataFrame的方法技术

技术编号：36694135 阅读：13 留言：0更新日期：2023-02-27 20:04

本发明专利技术公开了一种加快数据从openGauss加载到DataFrame的方法，涉及计算机数据处理技术领域。该方法通过传入连接字段conn、SQL查询语句query，以及匹配openGauss的protocol字段，使本地计算机通过ConnectorX连接至openGauss数据库管理系统；ConnectorX的工作流包括：根据SQL查询语句query从openGauss获取元数据；根据元数据类型进行源分区，并预先分配内存创建若干NumPy数组；将SQL查询语句query拆分若干个子查询并行执行，得到多个查询结果；将查询结果转换为待写的查询结果数据；将待写的查询结果数据写入NumPy数组并生成DataFrame。本发明专利技术方法显著提高了openGauss将数据读取到DataFrame的速度，此外，通过使用ConnectorX来优化读取数据的过程，避免了修改数据库服务器和客户端驱动程序。数据库服务器和客户端驱动程序。数据库服务器和客户端驱动程序。

全部详细技术资料下载

【技术实现步骤摘要】
一种加快数据从openGauss加载到DataFrame的方法

[0001]本专利技术涉及计算机数据处理
，具体而言，涉及一种加快数据从openGauss加载到DataFrame的方法。

技术介绍

[0002]数据通常存储在数据库管理系统(DBMS)中，但DataFrame(数据帧)库在数据科学家中得到广泛使用。一个重要但具有挑战性的问题是如何弥补数据库和DataFrame之间的差距。
[0003]例如Pandas、Dask和Modin(均为常见的Python第三方库)等DataFrame库被广泛的使用于数据操作和数据分析中。一般情况下，企业环境会将其数据存储在数据库管理系统中，因此，大多数数据科学分析软件第一步都是从DBMS中加载数据。但是这个数据加载过程不仅是出了名的缓慢，而且还消耗了大量的客户端内存，这很容易导致内存不足或性能下降的问题。这个问题是亟待解决的，因为读取数据这个操作处于很多数据科学任务的关键路径上，而且在某些真实的机器学习管道中，它可能消耗超过50％的时间。因此，弥补数据库和DataFrame之间的差距是学术界和工业界面临的重要问题。
[0004]为了解决这个问题，现有的方法可以从两个方面概括：
[0005]一是服务器端增强，通过元组级协议从数据库系统访问数据是出了名的慢。之前的工作表明现有的有线协议受到冗余信息和昂贵的(反)序列化的影响，因此需要提出了一个新的协议来解决这些问题。更多的方法倾向于使用现有的数据格式(如Parquet，ORC(两种列式存储格式)等)通过...

【技术保护点】

【技术特征摘要】
1.一种加快数据从openGauss加载到DataFrame的方法，其特征在于，通过传入连接字段conn、SQL查询语句query，以及匹配openGauss的protocol字段，使本地计算机通过ConnectorX连接至openGauss数据库管理系统；ConnectorX的工作流包括以下步骤：S1、根据SQL查询语句query从openGauss获取元数据；S2、根据元数据类型进行源分区，并创建若干NumPy数组；S3、将SQL查询语句query拆分若干个子查询并行执行，得到多个查询结果；S4、将查询结果转换为待写的查询结果数据；S5、将待写的查询结果数据写入NumPy数组并生成DataFrame。2.根据权利要求1所述加快数据从openGauss加载到DataFrame的方法，其特征在于，连接字段conn由DBMS类型、用户名、密码、主机号、端口号以及数据库名组成。3.根据权利要求2所述加快数据从openGauss加载到DataFrame的方法，其特征在于，protoco...

【专利技术属性】
技术研发人员：袁泽文，彭志昊，刘宇驰，苏涵，郑凯，曾凯，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人