一种数据处理方法及系统技术方案

技术编号:39816933 阅读:23 留言:0更新日期:2023-12-22 19:35
本发明专利技术实施例提供一种数据处理方法及系统

【技术实现步骤摘要】
一种数据处理方法及系统


[0001]本专利技术涉及大数据分析,尤其涉及一种数据处理方法及系统


技术介绍

[0002]随着人工智能和大数据的快速发展,使用机器学习技术进行模型训练,并使用训练好的业务模型实现大数据业务智能化处理也逐渐成为大数据行业的通用手段

模型训练通常需要经过数据处理

>
模型建立

>
模型验证这三大环节,而每个环节都会包含一个或多个算子,每个算子相对独立,并会对输入数据进行加工处理

当前算子的输入数据可能是上一个算子的输出数据,当前算子的输出数据可能是下一个算子的输入数据,通过算子的输入输出数据将多个算子串联形成一个工作流调度

现有模式的工作流调度中,每个算子在运行之前需要通过
I/O
接口读取磁盘加载输入数据,并且在运行结束将生成的数据通过
I/O
接口写入到磁盘文件系统中,且模型训练所用到的都是大数据集,因此导致现有的工作流调度需要占用大本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:响应于工作流的运行请求,获取所述工作流的数据亲缘关系;基于所述工作流的数据亲缘关系运行所述工作流;获取所述工作流中当前算子的输出数据;基于所述数据亲缘关系,若确定所述输出数据为所述工作流的最终结果,输出所述输出数据;若确定所述输出数据为所述工作流的中间结果,将所述输出数据存储至内存中
。2.
根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:根据所述工作流的数据亲缘关系,统计调用所述当前算子的输出数据的目标算子的个数
N

N
为大于1的整数;在所述内存中创建所述当前算子的输出数据的
N
个数据副本;所述基于所述工作流的数据亲缘关系运行所述工作流的步骤包括:基于所述工作流的数据亲缘关系,将所述数据副本发送至所述目标算子,运行所述工作流
。3.
根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:若调用所述当前算子的输出数据的目标算子的个数为1,则在所述目标算子执行完后清理所述输出数据;若调用所述当前算子的输出数据的目标算子的个数为
N
,则在
N
个所述目标算子均执行完成后,清理所述输出数据
。4.
根据权利要求1所述的数据处理方法,其特征在于,所述获取所述工作流中当前算子的输出数据的步骤之前,所述方法还包括:获取内存中已启动且处于空闲态的目标进程;所述目标进程对所述当前算子所依赖的计算框架和运行环境进行验证;若验证通过,所述目标进程进入运行状态执行所述当前算子
。5.
根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:若容器支持多种环境,所述获取内存中已启动且处于空闲态的目标进程的步骤之前,所述方法还包括:确定所述工作流中所述当前算子的运行环境;基于容器预先记录的进程标识和支持的环境以及所述当前算子的运行环境,确定所述当前算子对应的目标进程;启动所述目标进程
。6.
一种数据处理系统,其特征在于,所述系统包括:第一...

【专利技术属性】
技术研发人员:邢振广李维于帅帅方磊
申请(专利权)人:北京九章云极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1