一种数据集的插入方法、装置、设备及介质制造方法及图纸

技术编号:37508962 阅读:27 留言:0更新日期:2023-05-07 09:48
本说明书实施例公开了一种数据集的插入方法、装置、设备及介质,包括:在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;通过指定接口输出指定格式数据集,并对指定格式数据集进行预览确认;将预览确认后的指定格式数据集遍历拼接为sql执行语句,并将sql执行语句存入预先设定clickhouse数据库,以实现目标数据集的插入操作。本说明书实施例将不同来源的数据集统一到clickhouse进行管理,可以有效利用clickhouse速度快、功能多等优点,提高数据集管理效率。同时,本说明书实施例通过上述多数据源管理方法,可将来自不同文件的数据集格式化为高度组织和整齐、具有明确关系和结构的数据,使得这些数据运用和管理起来十分方便。些数据运用和管理起来十分方便。些数据运用和管理起来十分方便。

【技术实现步骤摘要】
一种数据集的插入方法、装置、设备及介质


[0001]本说明书涉及计算机
,尤其涉及一种数据集的插入方法、装置、设备及介质。

技术介绍

[0002]ClickHouse是一个用于实时数据分析的基于列存储的数据库。ClickHouse每秒钟每台服务器可以处理数亿至十亿多行和数十千兆字节的数据。具有数据压缩、磁盘存储,支持SQL,多核心并行处理,向量化引擎,索引,支持近似计算,丰富的表引擎,数据分区PARTITION等优点。推荐使用在数据被添加到数据库之后基本不怎么修改,查询并发相对不高,列值相对小,数字或者短字符串,无事务处理的场景中,比如用于存储数据和统计数据,用户行为数据记录和分析工作,日志分析等。
[0003]现有技术中,无法将不同来源数据插入到clickhouse数据库,进而对不同源数据进行统一管理。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种数据集的插入方法、装置、设备及介质,用于解决
技术介绍
提出的技术问题。
[0005]本说明书一个或多个实施例采用下述技术方案:
[0006]本说明书一个或多个实施例提供的一种数据集的插入方法,包括:
[0007]在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;
[0008]通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;
[0009]将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。
[0010]本说明书一个或多个实施例提供的一种数据集的插入装置,所述装置包括:
[0011]解析单元,在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;
[0012]输出单元,通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;
[0013]插入单元,将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。
[0014]本说明书一个或多个实施例提供的一种数据集的插入设备,包括:
[0015]至少一个处理器;以及,
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够:
[0018]在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;
[0019]通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;
[0020]将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。
[0021]本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0022]在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;
[0023]通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;
[0024]将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。
[0025]本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0026]本说明书实施例将不同来源的数据集统一到clickhouse进行管理,可以有效利用clickhouse速度快、功能多等优点,提高数据集管理效率。同时,本说明书实施例通过上述多数据源管理方法,可将来自不同文件的数据集格式化为高度组织和整齐、具有明确关系和结构的数据,使得这些数据运用和管理起来十分方便。
附图说明
[0027]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0028]图1为本说明书一个或多个实施例提供的一种数据集的插入方法的流程示意图
[0029]图2为本说明书一个或多个实施例提供的数据来源为mysql数据库连接信息处理信息的流程示意图;
[0030]图3为本说明书一个或多个实施例提供的数据来源为本地文件处理信息的流程示意图:
[0031]图4为本说明书一个或多个实施例提供的一种数据集的插入装置的结构示意图;
[0032]图5为本说明书一个或多个实施例提供的一种数据集的插入设备的结构示意图。
具体实施方式
[0033]本说明书实施例提供一种数据集的插入方法、装置、设备及介质。
[0034]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领
域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0035]图1为本说明书一个或多个实施例提供的一种数据集的插入方法的流程示意图,该流程可以由数据集的插入系统执行。流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
[0036]本说明书实施例的方法流程步骤如下:
[0037]S102,在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集。
[0038]在本说明书实施例中,目标数据集可以为本地文件与mysql数据库。
[0039]在本说明书实施例中,在目标数据集来源为本地文件时,可以先确定所述本地文件的扩展名类型;再根据所述本地文件的扩展名类型,确定所述目标数据集的解析方式;最后,根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集。
[0040]在本说明书实施例中,扩展名类型可以包括excel文件类型与csv文件类型;若所述本地文件的扩展名类型为所述excel文件类型,确定所述目标数据集对应的第一解析方式;若所述本地文件的扩展名类型为所述csv文件类型,确定所述目标数据集对应的第二解析方式。
[0041]在本说明书实施例中,确定所述目标数据集对应的第一解析方式,以及所述根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集时,可以使用HSSFWorkbook类解析.xls格式文件,XSSFWorkbook本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据集的插入方法,其特征在于,所述方法包括:在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。2.根据权利要求1所述的方法,其特征在于,所述将目标数据集解析成指定格式数据集,包括:所述目标数据集来源为本地文件时,确定所述本地文件的扩展名类型;根据所述本地文件的扩展名类型,确定所述目标数据集的解析方式;根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集。3.根据权利要求2所述的方法,其特征在于,所述扩展名类型包括excel文件类型与csv文件类型;所述根据所述本地文件的扩展名类型,确定所述目标数据集的解析方式,包括:若所述本地文件的扩展名类型为所述excel文件类型,确定所述目标数据集对应的第一解析方式;若所述本地文件的扩展名类型为所述csv文件类型,确定所述目标数据集对应的第二解析方式。4.根据权利要求3所述的方法,其特征在于,所述确定所述目标数据集对应的第一解析方式,以及所述根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集,包括:使用HSSFWorkbook类解析.xls格式文件,XSSFWorkbook类解析.xlsx格式文件,通过传参指定sheet页进行解析,对于sheet页参数传空的文件,默认解析第一个sheet页;在获得Sheet对象后,通过getRow(0)方法获取文件的表头列,getPhysicalNumberOfCells()方法获取表头总列数对Row对象进行遍历,依次获取每列列名getCellFormatValue(row.getCell(i)),组装成列名数组;在获得表头列名数组String[]head之后,根据getLastRowNum()的总行数和getPhysicalNumberOfCells()的总列数对Sheet对象进行遍历,将每一行读成一个Map,得到所述指定格式数据集。5.根据权利要求3所述的方法,其特征在于,所述确定所述目标数据集对应的第二解析方式,以及所述根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集,包括:使用BufferedReader类将文件读入缓冲区,通过bufferedReader.readLine().split(",")按照逗号分隔读取首行表头信息,获取列名数组;通过的BufferedReader的readLine()方法遍历待解析文件,在读取每个值时使用正则表达式忽略引号中的逗号以避免不必要的解析错误,得到所述指定格式数据集。6.根据权利要求1所述的方法,其特征在于,所述将目标数据集解析成指定格式数据集,包括:所述目标数据集来源为mysql数据库时,根据传参ip地址、端口号、数据库名拼接出所
述mysql数据库的连接地址,并测试所述mysql数据库是否连接成功;若是,访问所述mysql数据库,获取所述mysql数据库表名,获取所述mysql数据库表内的字段名,以及拼接条件查...

【专利技术属性】
技术研发人员:蒋晓晨赵海兴赵子墨韩纯子
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1