【技术实现步骤摘要】
一种数据集的插入方法、装置、设备及介质
[0001]本说明书涉及计算机
,尤其涉及一种数据集的插入方法、装置、设备及介质。
技术介绍
[0002]ClickHouse是一个用于实时数据分析的基于列存储的数据库。ClickHouse每秒钟每台服务器可以处理数亿至十亿多行和数十千兆字节的数据。具有数据压缩、磁盘存储,支持SQL,多核心并行处理,向量化引擎,索引,支持近似计算,丰富的表引擎,数据分区PARTITION等优点。推荐使用在数据被添加到数据库之后基本不怎么修改,查询并发相对不高,列值相对小,数字或者短字符串,无事务处理的场景中,比如用于存储数据和统计数据,用户行为数据记录和分析工作,日志分析等。
[0003]现有技术中,无法将不同来源数据插入到clickhouse数据库,进而对不同源数据进行统一管理。
技术实现思路
[0004]本说明书一个或多个实施例提供了一种数据集的插入方法、装置、设备及介质,用于解决
技术介绍
提出的技术问题。
[0005]本说明书一个或多个实施例采用下述技术方案:
[0006]本说明书一个或多个实施例提供的一种数据集的插入方法,包括:
[0007]在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;
[0008]通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;
[0009]将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clic ...
【技术保护点】
【技术特征摘要】
1.一种数据集的插入方法,其特征在于,所述方法包括:在mysql数据库连接信息传参或本地文件传参时,将目标数据集解析成指定格式数据集;通过指定接口输出所述指定格式数据集,并对所述指定格式数据集进行预览确认;将预览确认后的所述指定格式数据集遍历拼接为sql执行语句,并将所述sql执行语句存入预先设定clickhouse数据库,以实现所述目标数据集的插入操作。2.根据权利要求1所述的方法,其特征在于,所述将目标数据集解析成指定格式数据集,包括:所述目标数据集来源为本地文件时,确定所述本地文件的扩展名类型;根据所述本地文件的扩展名类型,确定所述目标数据集的解析方式;根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集。3.根据权利要求2所述的方法,其特征在于,所述扩展名类型包括excel文件类型与csv文件类型;所述根据所述本地文件的扩展名类型,确定所述目标数据集的解析方式,包括:若所述本地文件的扩展名类型为所述excel文件类型,确定所述目标数据集对应的第一解析方式;若所述本地文件的扩展名类型为所述csv文件类型,确定所述目标数据集对应的第二解析方式。4.根据权利要求3所述的方法,其特征在于,所述确定所述目标数据集对应的第一解析方式,以及所述根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集,包括:使用HSSFWorkbook类解析.xls格式文件,XSSFWorkbook类解析.xlsx格式文件,通过传参指定sheet页进行解析,对于sheet页参数传空的文件,默认解析第一个sheet页;在获得Sheet对象后,通过getRow(0)方法获取文件的表头列,getPhysicalNumberOfCells()方法获取表头总列数对Row对象进行遍历,依次获取每列列名getCellFormatValue(row.getCell(i)),组装成列名数组;在获得表头列名数组String[]head之后,根据getLastRowNum()的总行数和getPhysicalNumberOfCells()的总列数对Sheet对象进行遍历,将每一行读成一个Map,得到所述指定格式数据集。5.根据权利要求3所述的方法,其特征在于,所述确定所述目标数据集对应的第二解析方式,以及所述根据所述目标数据集的解析方式,将所述目标数据集解析成指定格式数据集,包括:使用BufferedReader类将文件读入缓冲区,通过bufferedReader.readLine().split(",")按照逗号分隔读取首行表头信息,获取列名数组;通过的BufferedReader的readLine()方法遍历待解析文件,在读取每个值时使用正则表达式忽略引号中的逗号以避免不必要的解析错误,得到所述指定格式数据集。6.根据权利要求1所述的方法,其特征在于,所述将目标数据集解析成指定格式数据集,包括:所述目标数据集来源为mysql数据库时,根据传参ip地址、端口号、数据库名拼接出所
述mysql数据库的连接地址,并测试所述mysql数据库是否连接成功;若是,访问所述mysql数据库,获取所述mysql数据库表名,获取所述mysql数据库表内的字段名,以及拼接条件查...
【专利技术属性】
技术研发人员:蒋晓晨,赵海兴,赵子墨,韩纯子,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。