一种数据提取方法、装置、设备及存储介质制造方法及图纸

技术编号:38638358 阅读:10 留言:0更新日期:2023-08-31 18:33
本申请提供了一种数据提取方法、装置、设备及存储介质,可应用于大数据领域或金融领域。该方法包括:获取目标数据提取任务后,根据数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集。然后,根据分隔符配置表对第一数据集中的数据添加分隔符,得到第二数据集。最后,向分析层发送第二数据集和分隔符信息,以使分析层中的数据库识别并加载第二数据集。这样,通过分隔符配置表进行分隔符转义,可以将提取的数据直接加载到分析层中的数据库,从而提高数据提取效率的效果。如此,解决了数据提取的分隔符及分析层中的分隔符不一致导致的无法识别或转化需要较长时间的问题,使银行系统中的分析层能够高效便捷地从数据湖中提取数据。湖中提取数据。湖中提取数据。

【技术实现步骤摘要】
一种数据提取方法、装置、设备及存储介质


[0001]本申请可应用于大数据领域或金融领域,尤其涉及一种数据提取方法、装置、设备及存储介质。

技术介绍

[0002]随着提出的“数据湖”架构方案越发成熟,数据湖作为支撑企业数字化转型的数据底座,能够为企业提供数据驱动、精准决策等全方位技术支撑,因此企业级数据湖的建设,是数据价值逐渐释放的基础,是企业数字化战略转型的关键,也是银行大数据应用建设中支撑银行数据服务需求的解决方案。现如今银行业务线上化、数字化的趋势明显加快,基于数据驱动的业务场景不断涌现,业务变化多、弹性大、需要快速响应,数据量大、类型丰富,数据湖可以用来整合银行内、内部各类业务零碎数据,增强数据安全管控及数据安全,应对大量的银行数据业务需求。
[0003]一般情况下,当银行业务需要从数据湖中提取数据时,分析层会向提数服务发送数据提取请求,提数服务将从数据湖中查询数据,并将查询到的数据及下载到本地,再传输给分析层,由分析层展现到银行业务中。然而这种方法由于数据湖的权限管理,需要先将查询结果下载到本地,在传输到分析层中,在数据量巨大的情况下,数据提取所需的时间过长。而且从HIVE表提取后的数据分隔符和分析层GBASE数据库支持的分隔符不一致,导致查询到的数据无法直接加载到分析层,从而导致这样的数据提取方法具有数据提取效率低下的缺点。
[0004]因此,如何高效便捷地从数据湖中提取数据,是本领域技术人员急需解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请提供了一种数据提取方法、装置、设备及存储介质,旨在使银行系统中的分析层高效便捷地从数据湖中提取数据。
[0006]第一方面,本申请提供了一种数据提取方法,所述方法包括:
[0007]获取目标数据提取任务,所述目标数据提取任务包括数据查询信息;
[0008]根据所述数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集;
[0009]根据分隔符配置表对所述第一数据集中的数据添加分隔符,得到第二数据集;
[0010]向分析层发送所述第二数据集和分隔符信息,所述分隔符信息为从分隔符配置表中选取与所述分隔符对应的分隔符信息,用于使所述分析层中的数据库识别并加载所述第二数据集。
[0011]可选地,对提取到的数据进行脱敏,包括:
[0012]根据预设脱敏规则制定脱敏函数,并利用所述脱敏函数对所述第一数据集进行敏感字段的脱敏,
[0013]其中,所述预设脱敏规则包括加密或隐藏处理所述第一数据集中的非校验位和校验位,所述校验位为敏感字段中的一个或多个数据位,所述敏感字段的类型包括用户身份标识、客户名称、账号信息和银行卡标识。
[0014]可选地,所述分隔符信息包括在所述分隔符配置表中所述分隔符对应的第一分隔符,所述第一分隔符为所述分析层中的数据库支持且能够识别的分隔符;
[0015]其中,所述分隔符配置表是在为所述第一数据集中的数据添加分隔符前预先创建并设定的。
[0016]可选地,所述获取目标数据提取任务后,所述方法还包括:
[0017]接收分析层的分区校验请求,所述分区校验请求包括所述目标数据提取任务的数据湖中的目标数据分区;
[0018]判断所述目标数据分区是否含有数据;
[0019]若没有,终止所述目标数据提取任务。
[0020]可选地,所述获取目标数据提取任务前,所述方法还包括:
[0021]接收数据查询信息,所述数据查询信息由分析层发送;
[0022]根据所述数据查询信息形成多个数据提取任务;
[0023]将所述多个数据提取任务加载进提数任务表中;
[0024]从所述提数任务表中循环扫描数据提取任务,并多线程执行所述数据提取任务。
[0025]可选地,所述向分析层发送所述第一数据集和分隔符信息后,所述方法还包括:
[0026]将所述第二数据集写入数据存储集群形成缓存文件;
[0027]将所述缓存文件传输给所述分析层的指定存储路径。
[0028]第二方面,本申请提供了一种数据提取装置,所述装置包括:目标任务获取模块、数据提取模块、分隔符添加模块和结果发送模块;
[0029]所述目标任务模块,用于获取目标数据提取任务,所述目标数据提取任务包括数据查询信息;
[0030]数据提取模块,用于根据所述数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集;
[0031]分隔符添加模块,用于根据分隔符配置表对所述第一数据集中的数据添加分隔符,得到第二数据集;
[0032]结果发送模块,用于向分析层发送所述第二数据集和分隔符信息,所述分隔符信息为从分隔符配置表中选取与所述分隔符对应的分隔符信息,用于使所述分析层识别并加载所述第一数据集。
[0033]可选地,所述装置还包括分区校验模块,所述分区校验模块,用于接收分析层的分区校验请求,所述分区校验请求包括所述目标数据提取任务的数据湖中的目标数据分区;然后判断所述目标数据分区是否含有数据,若没有,终止所述目标数据提取任务。
[0034]第三方面,本申请提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的数据提取方法。
[0035]第四方面,本申请提供了一种计算机存储介质,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在数据提取设备上运行时,所述数据提取设备执行前述
第一方面中任一项所述的数据提取方法的步骤。
[0036]本申请提供了一种数据提取方法、装置、设备及存储介质。在执行所述方法时,先获取目标数据提取任务,后根据数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集,然后,根据分隔符配置表对第一数据集中的数据添加分隔符,得到第二数据集。最后,向分析层发送第二数据集和分隔符信息,以使分析层中的数据库识别并直接加载第二数据集。这样,通过分隔符配置表进行分隔符转义,从分隔符配置表中读取分析层中的数据库所支持的分隔符发送给分析层,使得提取的数据可以直接加载到分析层中的数据库,达到了提高数据提取效率的效果。如此,可以解决数据提取的分隔符及分析层中的分隔符不一致导致的无法识别或转化需要较长时间的问题,从而使银行系统中的分析层能够高效便捷地从数据湖中提取数据。
附图说明
[0037]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例提供的一种数据提取方法的方法流程图;
[0039]图2为本申请实施例提供的另一种数据提取方法的方法流程图;
[0040]图3为本申请实施例提供的一种数据提取装本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,所述方法包括:获取目标数据提取任务,所述目标数据提取任务包括数据查询信息;根据所述数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集;根据分隔符配置表对所述第一数据集中的数据添加分隔符,得到第二数据集;向分析层发送所述第二数据集和分隔符信息,所述分隔符信息为从分隔符配置表中选取与所述分隔符对应的分隔符信息,所述分隔符信息用于使所述分析层中的数据库识别并加载所述第二数据集。2.根据权利要求1所述的方法,其特征在于,对提取到的数据进行脱敏,包括:根据预设脱敏规则制定脱敏函数,并利用所述脱敏函数对所述第一数据集进行敏感字段的脱敏;其中,所述预设脱敏规则包括加密或隐藏处理所述第一数据集中的非校验位和校验位,所述校验位为敏感字段中的一个或多个数据位,所述敏感字段的类型包括用户身份标识、客户名称、账号信息和银行卡标识。3.根据权利要求1所述的方法,其特征在于,所述分隔符信息包括在所述分隔符配置表中所述分隔符对应的第一分隔符,所述第一分隔符为所述分析层中的数据库支持且能够识别的分隔符;其中,所述分隔符配置表是在为所述第一数据集中的数据添加分隔符前预先创建并设定的。4.根据权利要求1所述方法,其特征在于,所述获取目标数据提取任务后,所述方法还包括:接收分析层的分区校验请求,所述分区校验请求包括所述目标数据提取任务的数据湖中的目标数据分区;判断所述目标数据分区是否含有数据;若没有,终止所述目标数据提取任务。5.根据权利要求1所述的方法,其特征在于,所述获取目标数据提取任务前,所述方法还包括:接收数据查询信息,所述数据查询信息由分析层发送;根据所述数据查询信息形成多个数据提取任务;将所述多个数据提取任务加载进提数任务表中;从所述提数任务表中循环扫描数据提取任务,并多线...

【专利技术属性】
技术研发人员:操庐宁
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1