【技术实现步骤摘要】
用于流式计算系统的数据处理方法、装置、设备和介质
[0001]本公开涉及计算机领域,尤其涉及分布式计算领域和流式计算领域,具体涉及一种用于流式计算系统的用于流式计算系统的数据处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]流式计算系统在运行时需要将状态数据和进度信息持久化存储,在进程意外退出时仍然能够完整恢复全部数据,确保数据不重不丢。流式计算作业由多个分布式计算节点组成,每个节点都是整个作业中不可缺少的必要计算节点,没有冗余部分,所以流式计算系统需要确保每个节点都处于正常存活状态。
[0003]云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明, ...
【技术保护点】
【技术特征摘要】
1.一种用于流式计算系统的数据处理方法,包括:读取日志文件,所述日志文件包括至少一个第一操作指令,所述第一操作指令用于操作数据文件,并且能够指示所述数据文件的存储信息;根据所述日志文件,将所述数据文件读取到内存中;生成第二操作指令,所述第二操作指令与所述至少一个第一操作指令功能相同;请求将所述第二操作指令写入所述日志文件;以及响应于确定所述第二操作指令已写入所述日志文件,执行所述第二操作指令。2.根据权利要求1所述的方法,还包括:获取对所述日志文件的排他写入权限。3.根据权利要求1所述的方法,其中,所述第二操作指令包括创建数据文件指令和删除数据文件指令中的至少一个。4.根据权利要求1所述的方法,其中,所述数据文件包括至少一个数据块,所述至少一个数据块中的每一个数据块的大小不大于预设值。5.根据权利要求4所述的方法,其中,所述第二操作指令包括切换数据块指令和删除数据块指令中的至少一个,其中,所述切换数据块指令指示在对应的数据文件中增加数据块,并且指示将对该数据文件的数据写入切换至所述增加的数据块,并且其中,所述删除数据块指令指示删除对应的数据文件的至少一个数据块。6.根据权利要求1所述的方法,其中,所述数据文件包括序列文件和随机文件中的至少一个。7.根据权利要求1所述的方法,还包括:响应于检测到满足预设条件,执行第三操作指令,所述第三操作指令用于在所述日志文件所在的日志目录内进行操作。8.根据权利要求7所述的方法,还包括:获取在所述日志目录内进行操作的排他操作权限。9.根据权利要求7所述的方法,其中,所述第三操作指令包括创建日志文件指令、移动日志文件指令和删除日志文件指令中的至少一个。10.根据权利要求7所述的方法,其中,执行所述第三操作指令包括:对所述日志文件进行压缩,以创建临时日志文件;指示阻塞等待,所述日志文件在所述阻塞等待期间暂停写入;响应于确定一个或多个第四操作指令在所述压缩期间写入所述日志文件,将所述一个或多个第四操作指令写入所述临时日志文件;删除所述日志文件,并且将所述临时日志文件作为压缩后的日志文件;以及指示解除所述阻塞等待。11.一种用于流式计算系统的数据处理装置,包括:读取单元,被配置为读取日志文件,所述日志文件包括至少一个执行过的第一操作指令,所述第一操作指令用于操作数据文件,并且能够指示所述数据文件的存储信息,其中,所述读取单元被进一步配置为根据所述日志文件,将所述数据文件读取到内存中;
指令单元,被配置为生成第二操作指令,所述第二操作指令与所述至少一个第一操作指令功能相同;请求...
【专利技术属性】
技术研发人员:孙英富,汪婷,石然,朱良昌,田勇,龚宓,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。