【技术实现步骤摘要】
Hudi运行环境资源优化分配方法及装置
[0001]本申请涉及计算机
,具体而言,本申请涉及一种Hudi运行环境资源优化分配方法及装置。
技术介绍
[0002]随着信息技术的发展,越来越多的医院采用Hudi技术进行医疗数据的存储,为了保证医院患者的正常就诊和治疗,必须保证各业务系统的数据能够实时存储。由于Hudi是基于spark运行的,在将医院的各业务系统的增量数据不断存储至对应的Hudi表中时,需要在每次进行增量数据存储时启动对应的Spark Session,目前的方案大多是根据产生增量数据的业务系统的类型来为对应的Spark Session的分配资源(CPU资源、内存资源等)。而医院对接有多种业务系统,例如:HIS(Hospital Information System,医院信息系统),LIS(Laboratory Information Management System,实验室信息管理系统),RIS(Radiography Information System,放射科信息系统)等,每种业务系统的库中动辄上百张表 ...
【技术保护点】
【技术特征摘要】
1.一种Hudi运行环境资源优化分配方法,其特征在于,包括:在进行医疗数据存储前,启动预设数量的计算引擎会话Spark Session,并对各Spark Session按对应的资源大小进行分类,得到至少两个Spark Session集合,并确定每个Spark Session集合对应的任务数据量范围;在医院的业务系统有增量医疗数据产生时,将所述增量医疗数据写入卡夫卡kafka的第一topic,通过流式计算引擎flink消费所述第一topic得到所述增量医疗数据,并将所述增量医疗数据存储至分布式文件存储系统hdfs,并将所述增量医疗数据的数据表标识和在所述hdfs中的存储路径写入所述kafka的第二topic;通过flink消费所述第二topic,获取所述增量医疗数据对应的Hudi表任务所对应的数据量大小,并获取所述Hudi表任务的优先级得分,基于所述优先级得分将所述Hudi表任务加入任务执行队列,所述Hudi表任务用于指示存储所述增量医疗数据至对应的Hudi表;在所述Hudi表任务处于所述任务执行队列的头部时,基于所述Hudi表任务的数据量大小和各Spark Session集合对应的任务数据量范围,确定出目标Spark Session,并利用所述目标Spark Session执行所述Hudi表任务,以将所述增量医疗数据添加至对应的Hudi表中。2.根据权利要求1所述的方法,其特征在于,通过flink消费所述第二topic,获取所述增量医疗数据对应的Hudi表任务所对应的数据量大小,包括:通过flink消费所述第二topic得到所述增量医疗数据的数据表标识和存储路径,基于所述存储路径获取所述增量医疗数据,并基于所述数据表标识确定所述增量医疗数据对应的目标Hudi表;将所述增量医疗数据的数据量大小和所述目标Hudi表中包含的数据量大小之和,作为所述Hudi表任务对应的数据量大小。3.根据权利要求1所述的方法,其特征在于,基于所述优先级得分将所述Hudi表任务加入任务执行队列,包括:若所述任务执行队列中不包含所述增量医疗数据的数据表标识对应的其他Hudi表任务,则获取所述Hudi表任务的优先级得分,并基于所述Hudi表任务的优先级得分与所述任务执行队列中各Hudi表任务的优先级得分的大小关系,将所述Hudi表任务添加至所述任务执行队列;若所述任务执行列表中包含所述增量医疗数据的数据表标识对应的其他Hudi表任务,则将所述Hudi表任务与所述其他Hudi表任务合并,并获取合并后的Hudi表的优先级得分,再基于所述合并后的Hudi表任务的优先级得分与所述任务执行队列中各Hudi表任务的优先级得分的大小关系,将所述合并后的Hudi表任务添加至所述任务执行队列。4.根据权利要求1所述的方法,其特征在于,获取所述Hudi表任务的优先级得分:获取所述Hudi表任务的延迟时间,并获取该Hudi表任务对应的增量医疗数据的数据表标识和数据量大小;基于所述延迟时间获取第一优先级得分,基于所述数据表标识确定所述增量医疗数据对应的数据表类型,并基于所述数据表类型获取第二优先级得分,基于所述数据量大小获取第三优先级得分;基于所述第一优先级得分、所述第二优先级得分以及所述第三优先级得分,获取该
Hudi表任务的优先级得分。5.根据权利要求1所述的方法,其特征在于,所述基于所述Hudi表任务的数据量大小和各Spark Session集合对应的任务数据量范围,确定出目标Spark Session,包括:将所述Hudi表任务的数据量大小满足的任务数据量范围对应的Spark Session集合确定为目标Spark Session集合;将所述目标Spark Session集合中任一空闲Spark Session,确定为目标Spark Session。6.根据权利要求5所述的方法...
【专利技术属性】
技术研发人员:秦晓宏,黄主斌,
申请(专利权)人:上海柯林布瑞信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。