一种基于ETL的数据抽取方法技术

技术编号:22944478 阅读:32 留言:0更新日期:2019-12-27 17:09
一种基于ETL的数据抽取方法。涉及数据处理领域,尤其涉及一种基于ETL的数据抽取方法。提供了一种为企业项目可视化管控数据高效可靠抽取的基于ETL的数据抽取方法。本发明专利技术在多系统和多数据源抽取需求、数据抽取与数据处理的消息通知制造、数据抽取处理在分布式集成环境下,达到以下技术效果:1、项目可视化管控数据抽取与分析处理的感知性:规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取动态感知消息传递;2、项目可视化管控数据抽取与分析处理的资源性:在进行数据抽与处理复杂物理环境时,在多分布式集群环境下,数据抽取资源的动态调度。

【技术实现步骤摘要】
一种基于ETL的数据抽取方法
本专利技术涉及数据处理领域,尤其涉及一种基于ETL的数据抽取方法。
技术介绍
在企业进行项目可视化管控时,由于企业业务系统不同、供应商不同、数据库多样性、传统业务系统主要目标进行内容的增加、修改、删除等操作,经常不能按不同项目维度、时间维度、多部门、多业务系统数据共享等方式统一主题数据可视化展示,一般的数据抽取技术只是针对多业务数据接入、简单时间系列进行处理,缺少完善的机制进行数据抽取处理的通知机制。在相关项目可视化管控数据抽取的技术中,存在着分别提供数据抽取定义和时间系列,在数据在进行抽取到统一数据资源库中,解决了多业务系统、多数据环境下数据统一抽取问题,但未提供数据抽取与分数据分析消息通知机制、分布式集群数据处理环境下等正常业务流程下保障数据抽取的消息机制造与数据调度处理方法,也未提供在出现错误数据后的异常处理措施。
技术实现思路
本专利技术针对以上问题,提供了一种为企业项目可视化管控数据高效可靠抽取的基于ETL的数据抽取方法。本专利技术的技术方案为:包括以下步骤:S1,配置抽取目标数据的抽取参数;S2,编制抽取SQL命令;S3,将目标数据抽取后进行处理,集成到基础库;S4,基础库数据抽取完成,生成消息通知;S5,数据处理总线监控接收消息通知队列,进行数据处理计算;S6,数据处理计算完成,数据进入项目可视化主题数据库;S7,对主题数据库中数据进行项目可视化展示。步骤S1中,数据抽取参数包括:源数据的基础信息、抽取数据的接入方式和抽取数据的频率;源数据的基础信息包括源数据的数据库类型等基础信息;抽取数据的接入方式包括WebService接口、Rest接口、数据库接口、在线填报、文件上传和批量导入;抽取数据的频率按要求的时间的频率进行作业任务的创建。步骤S3中,将目标数据抽取后进行处理包括过滤、清洗、格式转换、脱敏处理、脱密处理、分析处理;以及对数据定义、数据结构、数据标识、数据编码、数据编目、来源、转换关系、质量等级、依赖关系、安全权限内容进行管理。所述过滤包括对残缺数据、错误数据和重复数据进行过滤,再将其集成到基础库。步骤S5中,数据处理计算包含以下步骤:1)在数据抽取前置机建立所有数据抽取计算资源列表;2)在进行数据抽取初始化时,对计算资源的线程池中最大线程数量进行初始化;3)将接收到的消息通知,转化为消息处理队列,等待处理;4)对计算资源线程池进行监测,是否有空余处理线程,直到有空余处理线程;5)存在空余处理线程时,选择空余线程较多的资源对消息处理队列进行处理;6)计算完成,释放线程占用处理资源。本专利技术在多系统和多数据源抽取需求、数据抽取与数据处理的消息通知制造、数据抽取处理在分布式集成环境下,达到以下技术效果:1、项目可视化管控数据抽取与分析处理的感知性:规则可灵活配置或扩展以适应不同业务系统、不同关系性数据的数据提取动态感知消息传递;2、项目可视化管控数据抽取与分析处理的资源性:在进行数据抽与处理复杂物理环境时,在多分布式集群环境下,数据抽取资源的动态调度。附图说明图1是本专利技术的流程图,图2是步骤S5中数据处理计算的流程图。具体实施方式本专利技术如图1-2所示,包括以下步骤:S1,配置抽取目标数据的抽取参数;数据抽取参数包括:源数据的基础信息、抽取数据的接入方式、抽取数据的频率。源数据的基础信息包括源数据的数据库类型等基础信息;抽取数据的接入方式包含WebService接口、Rest接口、数据库接口、在线填报、文件上传、批量导入;抽取数据的频率例如1小时、2小时,10分钟、1天等,按要求的时间的频率进行作业任务的创建。S2,编制抽取SQL命令;也可使用SQL脚本进行批量化、定时进行抽取。S3,将目标数据抽取后进行处理,集成到基础库;将目标数据抽取后进行处理包括过滤、清洗、格式转换、脱敏处理、脱密处理、分析处理;以及对数据定义、数据结构、数据标识、数据编码、数据编目、来源、转换关系、质量等级、依赖关系、安全权限内容进行管理;所述过滤包括对残缺数据、错误数据、重复数据等脏数据、废数据进行过滤,再将其集成到基础库;其数据抽取可采用的同步方式有实时同步、定时同步与手工同步。S4,基础库数据抽取完成,生成消息通知;S5,数据处理总线监控接收消息通知队列,进行数据处理计算处理;在项目可视化管控的数据抽取完成,监视器监控一类指标数据完成,就创建可识别标识类别的消息通知,并推送消息到消息处理数据抽前置机的数据处理总线监控接收消息队列,为保障数据处理异常情况,对消息任务队列实行持久化实现,保障极端异常情况(如异常断电)后可以恢复消息队列。具体数据处理计算包含以下步骤:1)在数据抽取前置机建立所有数据抽取计算资源列表;2)在进行数据抽取初始化时,对计算资源的线程池中最大线程数量进行初始化;大线程数量是应用程序按计算资源配置单与计算资源列表进行确定的。3)将接收到的消息通知,转化为消息处理队列,等待处理;包括对所述消息处理队列实行持久化,该持久化在数据处理异常时对消息处理队列进行恢复。4)对计算资源线程池进行监测,是否有空余处理线程,直到有空余处理线程;5)存在空余处理线程时,选择空余线程较多的资源对消息处理队列进行处理;6)计算完成,释放线程占用处理资源。S6,数据处理计算完成,数据进入项目可视化主题数据库;该主题数据库是根据当前的查看与分析需求而建立的数据库。S7,对主题数据库中数据进行项目可视化展示。对于本案所公开的内容,还有以下几点需要说明:(1)、本案所公开的实施例附图只涉及到与本案所公开实施例所涉及到的结构,其他结构可参考通常设计;(2)、在不冲突的情况下,本案所公开的实施例及实施例中的特征可以相互组合以得到新的实施例;以上,仅为本案所公开的具体实施方式,但本公开的保护范围并不局限于此,本案所公开的保护范围应以权利要求的保护范围为准。本文档来自技高网...

【技术保护点】
1.一种基于ETL的数据抽取方法,其特征在于,包括以下步骤:/nS1、配置目标数据的抽取参数;/nS2、编制抽取SQL命令;/nS3、将目标数据抽取后进行处理,集成到基础库;/nS4、基础库数据抽取完成,生成消息通知;/nS5、数据处理总线监控接收消息通知队列,进行数据处理计算;/nS6、数据处理计算完成,数据进入项目可视化主题数据库;/nS7、对主题数据库中数据进行项目可视化展示。/n

【技术特征摘要】
1.一种基于ETL的数据抽取方法,其特征在于,包括以下步骤:
S1、配置目标数据的抽取参数;
S2、编制抽取SQL命令;
S3、将目标数据抽取后进行处理,集成到基础库;
S4、基础库数据抽取完成,生成消息通知;
S5、数据处理总线监控接收消息通知队列,进行数据处理计算;
S6、数据处理计算完成,数据进入项目可视化主题数据库;
S7、对主题数据库中数据进行项目可视化展示。


2.根据权利要求1所述的一种基于ETL的数据抽取方法,其特征在于,步骤S1中,
抽取参数包括:源数据的基础信息、抽取数据的接入方式和抽取数据的频率;
源数据的基础信息包括源数据的数据库类型;
抽取数据的接入方式包括WebService接口、Rest接口、数据库接口、在线填报、文件上传和批量导入;
抽取数据的频率按要求的时间的频率进行作业任务的创建。


3.根据权利要求1所述的一种基于ETL的数据抽取方法,其特征在于,步...

【专利技术属性】
技术研发人员:吴鹏章跃俊潘康梁晔金明明刘耀庭
申请(专利权)人:国网江苏省电力有限公司宝应县供电分公司国网江苏省电力有限公司扬州供电分公司国网江苏省电力有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1