【技术实现步骤摘要】
一种应用于数据清洗工具的任务断点续传的方法
本专利技术涉及数据处理
,尤其涉及了一种应用于数据清洗工具的任务断点续传的方法。
技术介绍
目前,随着医疗信息化的发展,医院信息集成平台的建设已经广泛开展,其包含的ETL数据清洗工具主要用于打造全院的数据中心,实现独立的数据仓库。ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程,是BI/DW(商务智能/数据仓库)的核心和灵魂,是构建数据中心的重要一环。用户从数据源抽取出所需的数据,经过数据转换,最终按照预先定义好的数据中心模型,将数据加载到数据中心中去。通过ETL将医疗业务系统HIS、LIS、PACS、EMR等系统的业务数据抽取到数据中心的业务数据层,数据中心业务数据层的源数据通过数据清洗,数据标准化转换后抽取到数据中心标准层,数据中心标准层数据通过数据的进一步整合将数据进一步抽取转化加载到数据仓库、临床知识库、指标库等数据应用层。但是,ETL任务执行过程中,可能会出现因后台程序的异常,网络不稳定,服务器断电等等外部原因,而导致任务中断的 ...
【技术保护点】
1.一种应用于数据清洗工具的任务断点续传的方法,其特征在于,包括如下步骤:/n(1)抽取目标源数据,将源数据断点拆分成数据源组块,并按顺序进行分组形成集合数组并标记分组号,生成源数据断点分组标记表,同时标记每个数组均为未处理状态,在处理任务后标记为已处理状态;/n(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;/n(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;/n(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。/n
【技术特征摘要】
1.一种应用于数据清洗工具的任务断点续传的方法,其特征在于,包括如下步骤:
(1)抽取目标源数据,将源数据断点拆分成数据源组块,并按顺序进行分组形成集合数组并标记分组号,生成源数据断点分组标记表,同时标记每个数组均为未处理状态,在处理任务后标记为已处理状态;
(2)在处理任务中发生异常问题后,需要重启任务时,根据源数据断点分组标记表进行查询,定位到状态为未处理的最近标记断点;
(3)根据未处理断点标记的分组号,获取对应的数据源组块,按顺序执行未处理的数据源组块,继续完成清洗任务;
(4)当源数据断点分组标记表中所有数组都为已处理状态,则任务执行完成。
2.根据权利要求1所述的一种应用于数据清洗工具的任务断点续传的方法,其特征在于:步骤(1)中,按顺序进...
【专利技术属性】
技术研发人员:纪峥嵘,刘军,叶庆楚,陈博文,吴永佳,
申请(专利权)人:无锡识凌科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。