流数据写入方法、装置、设备及存储介质制造方法及图纸

技术编号:29789836 阅读:12 留言:0更新日期:2021-08-24 18:08
本发明专利技术涉及大数据处理技术领域,公开一种流数据写入方法、装置、设备及存储介质,该方法包括:在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息,然后获取当前偏移量信息对应的数据分区信息,再根据数据分区信息从分布式消息订阅集群中获取待写入流数据,并将待写入流数据写入至分布式文件系统。由于本发明专利技术是从预设数据库表中获取当前偏移量信息,然后根据当前偏移量信息从分布式消息订阅集群中获取待写入流数据再进行的数据继续写入,相比于现有的引入其他的数据库组件来实现流数据的继续处理,本发明专利技术不需要使用额外的数据库组件,既保证了磁盘的安全性,也保证了数据写入的连贯性。

【技术实现步骤摘要】
流数据写入方法、装置、设备及存储介质
本专利技术涉及大数据处理
,尤其涉及一种流数据写入方法、装置、设备及存储介质。
技术介绍
在大数据领域,数据持久化存储在HDFS(分布式文件系统)是一种常见的解决方案,因为HDFS具有高容错性,适合批处理,有流式文件访问功能,可以在廉价的机器上搭建。由于数据来源有多样,比如从另外一个数据源(ORACLE,Mysql等)将数据批量导入到HDFS,在一些场景也有持续不断的数据需要做持久化处理,比如实时的日志分析,交易行情数据等。在流式实时数据写入的场景,现有的解决方案或多或少都存在一些问题。比如采用分布式系统+流数据处理组件的解决方案。该解决方案将实时的数据写入分布式系统,然后将数据落地到磁盘,再通过分布式系统中的消息消费者来持续不断的读取数据,一旦流数据处理组件断开了和分布式系统的连接然后再次连接时,需要通过引入额外的数据库组件保证从上次断掉的地方继续进行数据处理,否则就会导致数据处理从头开始,额外的增加了对已经处理过的(无效)数据进行二次处理,极大的影响数据处理的效率,同时由于该方案会引入其他的数据库组件,也会使得磁盘安全性无法得到保障等。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供了一种流数据写入方法、装置、设备及存储介质,旨在解决现有的流数据处理方式在参与数据处理的双方出现连接中断时,需要引入其他的数据库组件来实现流数据的继续处理,使得磁盘安全性无法得到保障的技术问题。为实现上述目的,本专利技术提供了一种流数据写入方法,所述方法包括以下步骤:在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息;获取所述当前偏移量信息对应的数据分区信息;根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统。优选地,所述获取所述当前偏移量信息对应的数据分区信息的步骤之前,所述方法还包括:对分布式消息订阅集群的消息消费客户端进行初始化,并在初始化完后从所述分布式消息订阅集群中读取初始偏移量信息;将所述初始偏移量信息与所述当前偏移量信息进行比对,并根据比对结果判断所述当前偏移量信息是否满足预设时间条件;若满足,则执行所述获取所述当前偏移量信息对应的数据分区信息的步骤。优选地,所述将所述初始偏移量信息与所述当前偏移量信息进行比对,并根据比对结果判断所述当前偏移量信息是否满足预设时间条件的步骤,包括:判断所述当前偏移量信息对应的偏移量与所述初始偏移量对应的偏移量是否一致;若一致,则判定所述当前偏移量信息满足预设时间条件;若不一致,则判定所述当前偏移量信息不满足预设时间条件。优选地,所述根据比对结果判断所述当前偏移量信息是否满足预设时间条件的步骤之后,所述方法还包括:若不满足,则根据所述初始偏移量信息获取对应的数据分区信息;根据所述数据分区信息对所述预设数据库表的分布式消息信息字段进行字段信息更新,并执行所述根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统的步骤。优选地,所述根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统的步骤之后,所述方法还包括:获取所述待写入流数据在写入所述分布式文件系统时对应的文件分区;获取所述文件分区对应的剩余存储空间,并将所述剩余存储空间与预设空间阈值进行比较;在所述剩余存储空间低于所述预设空间阈值时,对所述文件分区进行数据清理。优选地,所述在所述剩余存储空间低于所述预设空间阈值时,对所述文件分区进行数据清理的步骤,包括:在所述剩余存储空间低于所述预设空间阈值时,获取所述文件分区中存放的历史数据;对所述历史数据对应的键对象进行遍历,并根据遍历结果确定相同键对象对应的偏移量集合;从时间维度上对所述偏移量集合中的每个偏移量进行比对,并根据比对结果从所述偏移量集合中选取目标偏移量;将所述所述偏移量集合中所述目标偏移量之外的其他偏移量对应的数据进行清除。优选地,所述根据预设数据结构将所述待写入流数据写入至分布式文件系统的步骤之后,所述方法还包括:获取所述分布式文件系统中待迁移数据对应的当前数据格式;获取目标迁移数据库对应的数据存放格式,并比较所述当前数据格式与所述数据存放格式是否一致;在所述当前数据格式和所述数据存放格式不一致时,根据所述数据存放格式对所述待迁移数据进行格式转换;将格式转换后的待迁移数据发送至所述目标迁移数据库,以使所述目标迁移数据库利用循环冗余校验算法对所述待迁移数据进行一致性校验,并在校验通过时对所述待迁移数据进行储存。此外,为实现上述目的,本专利技术还提出一种流数据写入装置,所述流数据写入装置包括:信息提取模块,用于在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息;数据获取模块,用于获取所述当前偏移量信息对应的数据分区信息;数据写入模块,用于根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统。此外,为实现上述目的,本专利技术还提出一种流数据写入设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的流数据写入程序,所述流数据写入程序配置为实现如上文所述的流数据写入方法的步骤。此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有流数据写入程序,所述流数据写入程序被处理器执行时实现如上文所述的流数据写入方法的步骤。本专利技术通过在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息,然后获取当前偏移量信息对应的数据分区信息,再根据数据分区信息从分布式消息订阅集群中获取待写入流数据,并将待写入流数据写入至分布式文件系统。由于本专利技术是从本地获取当前偏移量信息,然后根据当前偏移量信息从分布式消息订阅集群中获取待写入流数据然后进行的数据继续写入,相比于现有的引入其他的数据库组件来实现流数据的继续处理,本专利技术不需要使用额外的数据库组件,既保证了磁盘的安全性,也保证了数据写入的连贯性。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的流数据写入设备的结构示意图;图2为本专利技术流数据写入方法第一实施例的流程示意图;图3为本专利技术流数据写入方法第二实施例的流程示意图;图4为本专利技术流数据写入方法第三实施例的流程示意图;图5为本专利技术流数据写入装置第一实施例的结构框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。参照图1,图1为本本文档来自技高网...

【技术保护点】
1.一种流数据写入方法,其特征在于,所述方法包括:/n在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息;/n获取所述当前偏移量信息对应的数据分区信息;/n根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统。/n

【技术特征摘要】
1.一种流数据写入方法,其特征在于,所述方法包括:
在实时流数据处理进程启动时,从预设数据库表的分布式消息信息字段中提取当前偏移量信息;
获取所述当前偏移量信息对应的数据分区信息;
根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统。


2.如权利要求1所述的流数据写入方法,其特征在于,所述获取所述当前偏移量信息对应的数据分区信息的步骤之前,所述方法还包括:
对分布式消息订阅集群的消息消费客户端进行初始化,并在初始化完后从所述分布式消息订阅集群中读取初始偏移量信息;
将所述初始偏移量信息与所述当前偏移量信息进行比对,并根据比对结果判断所述当前偏移量信息是否满足预设时间条件;
若满足,则执行所述获取所述当前偏移量信息对应的数据分区信息的步骤。


3.如权利要求2所述的流数据写入方法,其特征在于,所述将所述初始偏移量信息与所述当前偏移量信息进行比对,并根据比对结果判断所述当前偏移量信息是否满足预设时间条件的步骤,包括:
判断所述当前偏移量信息对应的偏移量与所述初始偏移量对应的偏移量是否一致;
若一致,则判定所述当前偏移量信息满足预设时间条件;
若不一致,则判定所述当前偏移量信息不满足预设时间条件。


4.如权利要求2所述的流数据写入方法,其特征在于,所述根据比对结果判断所述当前偏移量信息是否满足预设时间条件的步骤之后,所述方法还包括:
若不满足,则根据所述初始偏移量信息获取对应的数据分区信息;
根据所述数据分区信息对所述预设数据库表的分布式消息信息字段进行字段信息更新,并执行所述根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统的步骤。


5.如权利要求1至4任一项所述的流数据写入方法,其特征在于,所述根据所述数据分区信息从分布式消息订阅集群中获取待写入流数据,并将所述待写入流数据写入至分布式文件系统的步骤之后,所述方法还包括:
获取所述待写入流数据在写入所述分布式文件系统时对应的文件分区;
获取所述文件分区对应的剩余存储空间,并将所述剩余存储空间与预设空间阈值进行比较;
在所述剩余存储...

【专利技术属性】
技术研发人员:何瑞山
申请(专利权)人:平安证券股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1