【技术实现步骤摘要】
一种数据入库方法、装置、设备及介质
本专利技术实施例涉及数据存储技术,尤其涉及一种数据入库方法、装置、设备及介质。
技术介绍
随着各种应用系统使用人数的增多,应用系统需要处理的数据量呈指数级增长,单一服务器由于处理能力的限制无法实现大量数据并行处理,因此,服务器集群应运而生,其可以利用多个计算机进行并行计算从而获得较高的计算速度,提高应用系统的数据处理效率。服务器集群进行数据处理过程中,需要将一些数据存储到数据库中,当大规模的服务器集群,例如,集群中包括几十台或几百台计算机,同时对一个传统的关系型数据库进行数据插入操作时,海量数据写入速度慢,延迟高,网络I/O开销大,数据写入性能差,无法满足服务器集群高并发插入数据的需求。
技术实现思路
本专利技术实施例提供一种数据入库方法、装置、设备及介质,通过分布式数据库集群提供的数据加载模式进行数据入库,提高了数据入库的性能。第一方面,本专利技术实施例提供了一种数据入库方法,所述方法包括:采用分布式大数据处理系统包含的入库组件,将待入库数据存 ...
【技术保护点】
1.一种数据入库方法,其特征在于,包括:/n采用分布式大数据处理系统包含的入库组件,将待入库数据存储至分布式流处理平台中;/n采用流处理框架,从所述分布式流处理平台中读取所述待入库数据,并根据所述待入库数据,生成设定格式的数据文件;/n采用搬运工具将所述数据文件搬运到分布式数据库集群的主节点;/n通过所述分布式数据库集群启动加载程序,将所述数据文件写入所述分布式数据库集群。/n
【技术特征摘要】
1.一种数据入库方法,其特征在于,包括:
采用分布式大数据处理系统包含的入库组件,将待入库数据存储至分布式流处理平台中;
采用流处理框架,从所述分布式流处理平台中读取所述待入库数据,并根据所述待入库数据,生成设定格式的数据文件;
采用搬运工具将所述数据文件搬运到分布式数据库集群的主节点;
通过所述分布式数据库集群启动加载程序,将所述数据文件写入所述分布式数据库集群。
2.根据权利要求1所述的方法,其特征在于,采用分布式大数据处理系统包含的入库组件,将待入库数据存储至分布式流处理平台中,包括:
在所述分布式流处理平台中设定用于统计数据的专用数据主题;
采用所述分布式大数据处理系统包含的所述入库组件,将所述待入库数据存储至所述专用数据主题中。
3.根据权利要求2所述的方法,其特征在于,采用流处理框架,从所述分布式流处理平台中读取所述待入库数据,并根据所述待入库数据,生成设定格式的数据文件,包括:
采用所述流处理框架,从所述分布式流处理平台的专用数据主题中读取所述待入库数据,并通过预设配置文件解析所述待入库数据,生成相应的临时文件;
当所述临时文件包含的数据量超过数据量阈值后,将所述临时文件修改为设定格式的数据文件;
其中,所述设定格式为文本格式。
4.根据权利要求3所述的方法,其特征在于,采用搬运工具将所述数据文件搬运到分布式数据库集群的主节点,包括:
采用搬运工具将所述数据文件搬运到所述分布式数据库集群的主节点的临时目录下;
通过所述分布式数据库集群的主节点启动定时任务,在设定时间将所述临时目录下的所述数据文件搬运到所述主节点的正式目录下。
5.根据权利要求1所述的方法,其特征在于,所述分布式流处理平台为Kafka;
所述分...
【专利技术属性】
技术研发人员:何亚威,万月亮,火一莽,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。