一种基于DSG的字段变更数据采集抽取方法技术

技术编号:27454068 阅读:45 留言:0更新日期:2021-02-25 04:47
本发明专利技术提供一种基于DSG的字段变更数据采集抽取方法,属于数据采集、抽取领域,通过DSG字段变更数据采集抽取脚本自动化生成工具生成数据采集抽取的脚本,然后完成主要包括:1)可以对不同数据源的表字段变更数据进行采集。2)对已经抽取出的数据进行转存,根据规则进行验证,将多个数据源的数据进行合并集成,各数据源应用的共性数据和差异数据进行过滤清洗,生成固定格式的数据。3)将数据加载到所需要数据的平台上。通过本字段变更数据采集抽取方法保证了对变更字段数据抽取的需求,同时提高了数据处理的效率。数据处理的效率。数据处理的效率。

【技术实现步骤摘要】
一种基于DSG的字段变更数据采集抽取方法


[0001]本专利技术涉及数据采集、抽取技术,尤其涉及一种基于DSG的字段变更数据采集抽取方法。

技术介绍

[0002]数据,作为生产资料已成为社会共识。数据的集中采集、开发和利用能够有效形成产业聚集效应,带来巨大的经济价值和社会效应。近年来由于企业、机构对各种数据的需求越来越大,如何将大量数据转换成有用的信息,为人们生活和社会发展的各方面提供正确的决策,传统的数据库系统已无法满足需求。
[0003]目前各类数据具有以下特点:
[0004](1)数据的分散也带来了数据不清洁的问题。
[0005](2)由于不同的数据来源,不同的数据格式,使得对数据的处理方法不同,因而引起效率低下。
[0006](3)数据量大、变更频率高、保密要求高、数据使用需求高
[0007]综上,如果仅仅依靠人力来生成字段变更数据采集抽取脚本,就会造成字段变更采集效率低下,数据即时性就会降低,因此需要一种对所拥有数据再加工形成统一固定格式的方法。

技术实现思路

[0008]为了解决以上技术问题,本专利技术提供了一种基于DSG的字段变更数据采集抽取方法,以节约成本,解放人力,高效工作,达到不影响下游应用人员使用数据,保证数据及时从生产库采集到分析库的目的。
[0009]本专利技术的技术方案是:
[0010]一种基于DSG的字段变更数据采集抽取方法,
[0011]步骤如下:
[0012]步骤一:制定需求;
[0013]步骤二:生成采集脚本;
[0014]步骤三:脚本验证;
[0015]步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化;
[0016]步骤五:脚本上线;
[0017]步骤六:数据巡检及数据质量核查。
[0018]进一步的,
[0019]所述制定需求,即根据数据需求方对数据表的字段变更数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段。
[0020]进一步的,
[0021]所述生成采集脚本,即将要待采集抽取的字段变更表及数据库信息输入DSG字段
变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本。
[0022]进一步的,
[0023]所述脚本验证,即在开发环境中
[0024]1)执行对应的数据库中已建好表的字段变更脚本;
[0025]2)将生成的DSG字段变更采集抽取脚本按采集流程顺序一、二层导入到DSG中;
[0026]3)点击运行一、二层采集程序;
[0027]4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误,查找错误原因,解决问题。
[0028]进一步的,
[0029]所述DSG字段变更数据采集抽取脚本自动化生成工具优化,即对DSG字段变更数据采集抽取脚本自动化生成工具的使用和工具使用人员对数据采集抽取脚本的验证,发现需要持续优化和改进的问题。
[0030]所述问题包括程序Bug、运行效率、脚本质量。
[0031]进一步的,
[0032]所述脚本上线,即在正式环境中,将验证无误的字段变更数据采集抽取脚本上线,启动采集程序。
[0033]本专利技术的有益效果是
[0034](1)解决数据分散问题
[0035]可以解决因为数据源和系统不同造成的数据分散问题,从而根据需求将需要的数据集中在一处,提高了数据的利用效率跟数据获取便利性。
[0036](2)解决脏数据问题
[0037]通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,查看数据转换的状态。然后对数据进行格式转换、数据类型转换、数据汇总计算、数据拼接等等,使目标表中存储着清洁、一致、全面和面向决策的数据。
[0038](3)解决数据采集抽取效率低下的问题
[0039]通过本专利技术,利用DSG采集技术与字段变更数据采集抽取脚本自动化生成工具,大大提升了表字段变更后数据采集抽取的效率。
附图说明
[0040]图1是本专利技术的工作流程示意图。
具体实施方式
[0041]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]本专利技术基于DSG工具,DSG是一种数据整合工具,用来完成数据的抽取、清洗、转换和加载等数据处理方面的工作,同时DSG拥有流程式设计方便易用、支持多平台、多种方法应用集成、全面稳定高效的特点,使本次专利技术应用在DSG上。
[0043]本专利技术提出了一种基于DSG的字段变更(表添加字段、改变字段长度等)数据采集抽取方法,通过DSG字段变更数据采集抽取脚本自动化生成工具生成数据采集抽取的脚本,然后完成主要包括:1)可以对不同数据源的表字段变更数据进行采集。2)对已经抽取出的数据进行转存,根据规则进行验证,将多个数据源的数据进行合并集成,各数据源应用的共性数据和差异数据进行过滤清洗,生成固定格式的数据。3)将数据加载到所需要数据的平台上。由于数据量巨大和原始作业系统众多,为了不影响分析人员使用数据,保证数据及时从生产库采集到分析库,需要保证采集效率,根据DSG自身可应用与多平台,支持多数据库访问,流程设计方便访问等特点,通过本专利技术保证了对变更字段数据抽取的需求,同时提高了数据处理的效率。
[0044]主要步骤如下:
[0045]步骤一:制定需求:根据数据需求方对数据表的字段变更(表添加字段、改变字段长度等)数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段
[0046]步骤二:生成采集脚本:将要待采集抽取的字段变更表及数据库信息等配置信息输入DSG字段变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本。
[0047]步骤三:脚本验证:在开发环境中,1)执行对应的数据库中已建好表的字段变更脚本。2)将生成的DSG字段变更采集抽取脚本按采集流程顺序一、二层导入到DSG中。3)点击运行一、二层采集程序。4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误,查找错误原因,解决问题。
[0048]步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化:对DSG字段变更数据采集抽取脚本自动化生成工具的使用和工具使用人员对数据采集抽取脚本的验证(步骤三),发现了一些需要持续优化和改进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DSG的字段变更数据采集抽取方法,其特征在于,步骤如下:步骤一:制定需求;步骤二:生成采集脚本;步骤三:脚本验证;步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化;步骤五:脚本上线;步骤六:数据巡检及数据质量核查。2.根据权利要求1所述的方法,其特征在于,所述制定需求,即根据数据需求方对数据表的字段变更数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段。3.根据权利要求2所述的方法,其特征在于,字段变更包括表添加字段、改变字段长度。4.根据权利要求1所述的方法,其特征在于,所述生成采集脚本,即将要待采集抽取的字段变更表及数据库信息输入DSG字段变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本。5.根据权利要求1所述的方法,其特征在于,所述脚本验证,即在开发环境中...

【专利技术属性】
技术研发人员:王家海郑敏
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1