基于大数据任务的数据治理方法、装置、设备及存储介质制造方法及图纸

技术编号:39184182 阅读:14 留言:0更新日期:2023-10-27 08:31
本发明专利技术涉及数据治理技术,揭露了一种基于大数据任务的数据治理方法、装置、电子设备及计算机可读存储介质,其中方法包括:对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从数据资产清单中提取出任务资源清单和表资源清单;从对任务资源清单中提取出任务治理清单,从表资源清单中提取出表治理清单;对任务治理清单中的各个任务进行任务调参操作,得到治理任务集;对表治理清单中的各个表单进行表优化操作,得到治理表单集;为治理表单集和治理任务集配置治理脚本,得到持续治理资产集。本发明专利技术可以应用于医疗系统数据治理领域,可以对医疗系统中繁杂的任务和数据进行治理,能够提高数据治理的效率。能够提高数据治理的效率。能够提高数据治理的效率。

【技术实现步骤摘要】
基于大数据任务的数据治理方法、装置、设备及存储介质


[0001]本专利技术涉及数据治理
,尤其涉及一种基于大数据任务的数据治理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网医疗业务的发展,医疗系统中开始涌入越来越多的医疗数据,这也逐渐拖慢了医疗系统的响应效率,为了提高系统的整体运行效率,需要对医疗系统的进行数据治理。
[0003]现有的数据治理技术多为基于数据治理平台的数据治理方法,即通过引入数据清理平台,对数据资产进行全局梳理和治理,实际应用中,基于数据治理平台的数据治理方法从梳理到部署应用,涉及面较广,落地实时周期长,同时产品引入的人力、硬件成本投入较高,且缺少可持续性,可能导致进行数据治理时的效率较低。

技术实现思路

[0004]本专利技术提供一种基于大数据任务的数据治理方法、装置及计算机可读存储介质,其主要目的在于解决进行数据治理时的效率较低的问题。
[0005]为实现上述目的,本专利技术提供的一种基于大数据任务的数据治理方法,包括:
[0006]对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从所述数据资产清单中提取出任务资源清单和表资源清单;
[0007]依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单;
[0008]从所述任务治理清单中提取出任务治理属性集,根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集;
[0009]从所述表治理清单中提取出表治理属性集,根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集;
[0010]将所述治理表单集和所述治理任务集汇集成治理资产集,为所述治理资产集配置治理脚本,得到持续治理资产集,结束数据治理。
[0011]可选地,所述对医疗系统中所有数据资产进行数据监控,得到数据资产清单,包括:
[0012]逐个选取所述医疗系统中的数据资产作为目标数据资产,将所述目标数据资产对应的任务作为目标资产任务,将所述目标数据资产对应的表单作为目标资产表单;
[0013]对所述目标资产任务进行性能监控,得到目标任务数据,将所有的目标任务数据汇集成任务资源清单;
[0014]对所述目标资产表格进行容量监控,得到目标表数据,将所有的目标表数据汇集成表资源清单;
[0015]将所述任务资源清单和所述表资源清单汇集成数据资产清单。
[0016]可选地,所述依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,包括:
[0017]对所述任务资源清单进行CPU耗时检测,得到CPU超时任务清单;
[0018]对所述任务资源清单进行调度耗时检测,得到调度超时任务清单;
[0019]对所述任务资源清单进行读取容量检测,得到读取超量任务清单;
[0020]对所述任务资源清单进行作业数量检测,得到作业超量任务清单;
[0021]将所述CPU超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单汇集成任务治理清单。
[0022]可选地,所述依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单,包括:
[0023]对所述表资源清单进行存储容量检测,得到存储超量表清单;
[0024]对所述表资源清单进行调用次数检测,得到调度静止表清单;
[0025]对所述表资源清单进行更新次数检测,得到更新静止表清单;
[0026]对所述表资源清单进行下游血缘检测,得到下游停用表清单;
[0027]将所述存储超量表清单、所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单汇集成表治理清单。
[0028]可选地,所述根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集,包括:
[0029]利用所述任务治理属性集分别从所述任务治理清单中提取出所述CPU超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单;
[0030]对所述读取超量任务清单中的各个任务进行压缩调参,得到治理读取超量任务集;
[0031]对所述作业超量任务清单中的各个任务进行join调参,得到治理作业超量任务集;
[0032]将所述CPU超时任务清单以及所述调度超时任务清单汇集成超时任务清单;
[0033]对所述超时任务清单中的各个任务进行刷新调参,得到治理超时任务集;
[0034]将所述治理读取超量任务集、所述治理作业超量任务集以及所述治理超时任务集汇集成治理任务集。
[0035]可选地,所述对所述超时任务清单中的各个任务进行刷新调参,得到治理超时任务集,包括:
[0036]逐个选取所述超时任务清单中的任务作为目标超时任务,判断所述目标超时任务的刷新方式是否为全量刷新;
[0037]若否,则将所述目标超时任务作为目标治理超时任务添加至预设的治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤;
[0038]若是,则对所述目标超时任务进行上游溯源,得到上游数据,将所述目标超时任务的业务场景作为目标应用场景;
[0039]将所述上游数据和所述目标应用场景汇集成目标任务场景,判断所述目标任务场景是否存在历史更新场景;
[0040]若否,则将所述目标超时任务的查询方式改为增量查询,得到目标治理超时任务,
将所述目标治理超时任务添加至所述治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤;
[0041]若是,则根据所述目标任务场景生成所述目标超时任务的最长刷新周期;
[0042]根据所述最长刷新周期为所述目标超时任务配置全量刷新时间,得到目标治理超时任务,将所述目标治理超时任务添加至所述治理超时任务集中,返回所述逐个选取所述超时任务清单中的任务作为目标超时任务的步骤。
[0043]可选地,所述根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集,包括:
[0044]利用所述表治理属性集分别从所述表治理清单中提取出所述存储超量表清单、所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单;
[0045]将所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单汇集成停用表清单,对所述停用表清单中的各个表单进行删除操作,得到清理表单集;
[0046]对所述存储超量表清单中的各个表单进行分区操作,得到分区表单集;
[0047]将所述分区表单集以及所述清理表单集汇集成治理表单集。
[0048]为了解决上述问题,本专利技术还提供一种基于大数据任务的数据治理装置,所述装置包括:
[0049]数据梳理模块,用于对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据任务的数据治理方法,其特征在于,所述方法包括:对医疗系统中所有数据资产进行数据监控,得到数据资产清单,分别从所述数据资产清单中提取出任务资源清单和表资源清单;依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单;从所述任务治理清单中提取出任务治理属性集,根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集;从所述表治理清单中提取出表治理属性集,根据所述表治理属性集对所述表治理清单中的各个表单进行表优化操作,得到治理表单集;将所述治理表单集和所述治理任务集汇集成治理资产集,为所述治理资产集配置治理脚本,得到持续治理资产集,结束数据治理。2.如权利要求1所述的基于大数据任务的数据治理方法,其特征在于,所述对医疗系统中所有数据资产进行数据监控,得到数据资产清单,包括:逐个选取所述医疗系统中的数据资产作为目标数据资产,将所述目标数据资产对应的任务作为目标资产任务,将所述目标数据资产对应的表单作为目标资产表单;对所述目标资产任务进行性能监控,得到目标任务数据,将所有的目标任务数据汇集成任务资源清单;对所述目标资产表格进行容量监控,得到目标表数据,将所有的目标表数据汇集成表资源清单;将所述任务资源清单和所述表资源清单汇集成数据资产清单。3.如权利要求1所述的基于大数据任务的数据治理方法,其特征在于,所述依次对所述任务资源清单进行耗能检测和时长检测,得到任务治理清单,包括:对所述任务资源清单进行CPU耗时检测,得到CPU超时任务清单;对所述任务资源清单进行调度耗时检测,得到调度超时任务清单;对所述任务资源清单进行读取容量检测,得到读取超量任务清单;对所述任务资源清单进行作业数量检测,得到作业超量任务清单;将所述CPU超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单汇集成任务治理清单。4.如权利要求1所述的基于大数据任务的数据治理方法,其特征在于,所述依次对所述表资源清单进行容量检测和血缘检测,得到表治理清单,包括:对所述表资源清单进行存储容量检测,得到存储超量表清单;对所述表资源清单进行调用次数检测,得到调度静止表清单;对所述表资源清单进行更新次数检测,得到更新静止表清单;对所述表资源清单进行下游血缘检测,得到下游停用表清单;将所述存储超量表清单、所述调度静止表清单、所述更新静止表清单以及所述下游停用表清单汇集成表治理清单。5.如权利要求3所述的基于大数据任务的数据治理方法,其特征在于,所述根据所述任务治理属性集对所述任务治理清单中的各个任务进行任务调参操作,得到治理任务集,包括:
利用所述任务治理属性集分别从所述任务治理清单中提取出所述CPU超时任务清单、所述调度超时任务清单、所述读取超量任务清单以及所述作业超量任务清单;对所述读取超量任务清单中的各个任务进行压缩调参,得到治理读取超量任务集;对所述作业超量任务清单中的各个任务进行join调参,得到治理作业超量任务集;将所述CPU超时任务清单以及所述调度超时任务清单汇集成超时任务清单;对所述超时任务清单中的各个任务进行刷新调参,得到治理超时任务集;将所述治理读取超量任务集、所述治理作业超量任务集以及所述治理超时任务集汇集成治理任务集...

【专利技术属性】
技术研发人员:刘世明李婷薛鸿天姜洋刘怡雯王涛
申请(专利权)人:深圳平安综合金融服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1