数据探查请求的处理方法、装置、处理器及电子设备制造方法及图纸

技术编号:39413055 阅读:15 留言:0更新日期:2023-11-19 16:04
本申请公开了一种数据探查请求的处理方法、装置、处理器及电子设备,该方法应用于大数据技术领域,该方法包括:在接收到数据探查请求的情况下,依据数据探查请求的请求来源确定数据探查任务;依据数据探查任务和/或数据探查请求确定数据探查算法;依据数据探查算法和数据探查任务确定数据探查计划;依据数据探查计划在大数据集群中进行数据探查,得到数据探查结果。通过本申请,解决了相关技术中由于大数据集群数据量庞大、数据结构多样,采用传统的数据探查工具往往只针对特定的数据类型和一定数量的数据量进行设计,无法适应大规模异构数据的数据探查需求的问题。构数据的数据探查需求的问题。构数据的数据探查需求的问题。

【技术实现步骤摘要】
数据探查请求的处理方法、装置、处理器及电子设备


[0001]本申请涉及大数据
,具体而言,涉及一种数据探查请求的处理方法、装置、处理器及电子设备。

技术介绍

[0002]随着大数据在金融科技行业的规模化应用逐渐深入,金融科技行业对于数据研发和运营的标准化的需求日益迫切。现有技术中金融机构对数据构成和质量的探查及预处理包括以下步骤:首先,对业务关注的数据进行基本情况统计学分析,例如,通过关系型数据库对于业务数据进行空字段统计、极值统计、数据分布统计等;然后,对数据的缺失和异常值进行检查处理,例如,使用数据透视表或描述性计量检查数据中是否包含缺失内容,若有缺失可以采取填充或删除缺失值的方法来处理;其次,对数据的一致性进行验证和纠正,例如,根据数据的特点和业务需求,确保金融机构的不同业务系统所存储的数据中客户姓名、地址、电话号码等信息保持一致,即对数据进行一致性检查;最后,根据数据探查报告开展数据研发或数据治理,在完成数据抽样预览、构成分析和质量检测之后,数据研发人员根据数据探查报告开展数据工作流研发,或进行数据质量治理,以实现精益的、规模化的、可持续的业务流水线。
[0003]但由于金融科技行业的大数据的存储和计算通常由超大规模、异构的大数据集群提供支撑,而传统的数据探查工具往往只针对特定的数据类型和数据量进行定制,无法适应大规模异构数据处理需求,导致传统的数据探查工具和方法批量处理数据的效率较低的问题。
[0004]针对相关技术中由于大数据集群数据量庞大、数据结构多样,采用传统的数据探查工具往往只针对特定的数据类型和一定数量的数据量进行设计,无法适应大规模异构数据的数据探查需求的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请的主要目的在于提供一种数据探查请求的处理方法、装置、处理器及电子设备,以解决相关技术中由于大数据集群数据量庞大、数据结构多样,采用传统的数据探查工具往往只针对特定的数据类型和一定数量的数据量进行设计,无法适应大规模异构数据的数据探查需求的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种数据探查请求的处理方法,该方法包括:在接收到数据探查请求的情况下,依据所述数据探查请求的请求来源确定数据探查任务,其中,所述数据探查任务用于探查业务数据中的异常数据或用于处理所述业务数据;依据所述数据探查任务和/或所述数据探查请求确定数据探查算法;依据所述数据探查算法和所述数据探查任务确定数据探查计划;依据所述数据探查计划在大数据集群中进行数据探查,得到数据探查结果。
[0007]进一步地,依据所述数据探查请求的请求来源确定数据探查任务包括:依据所述
数据探查请求的请求来源确定数据探查范围;依据所述数据探查范围内的待探查数据,得到目标数据信息;依据所述目标数据信息生成所述数据探查任务。
[0008]进一步地,所述目标数据信息至少包括以下信息:所述待探查数据的目标集群信息、所述待探查数据的目标数据库信息、所述待探查数据的目标数据表信息、所述数据探查任务的提交时间、所述数据探查任务的运行状态信息。
[0009]进一步地,所述数据探查请求的请求来源至少包括以下之一:定时批量作业、异步准实时查询,依据所述数据探查请求的请求来源确定数据探查范围包括:在所述数据探查请求的请求来源为所述定时批量作业的情况下,所述数据探查范围至少包括以下之一:热点表、预设数据表,其中,所述热点表是指访问次数超过预设次数的表;在所述数据探查请求的请求来源为所述异步准实时查询的情况下,所述数据探查范围至少包括所述目标数据表,其中,所述目标数据表是所述数据探查请求指示查询的数据表。
[0010]进一步地,依据所述数据探查任务和/或所述数据探查请求确定数据探查算法包括:依据所述目标数据库信息确定所述待探查数据所在的目标数据库;在所述目标数据库为结构化数据库的情况下,确定所述数据探查算法为自然语言处理算法;在所述目标数据库存储的数据是图片数据的情况下,确定所述数据探查算法为图像处理算法;在所述目标数据库存储的数据是与时序相关的数据的情况下,确定所述数据探查算法为时间序列算法。
[0011]进一步地,依据所述数据探查任务和/或所述数据探查请求确定数据探查算法包括:依据所述数据探查请求确定所述数据探查任务的业务需求;在所述业务需求为统计数据和计算数据的情况下,确定所述数据探查算法为统计学算法;在所述业务需求为预测数据趋势或建立数据模型的情况下,确定所述数据探查算法为机器学习算法;在所述业务需求为挖掘数据关系的情况下,确定所述数据探查算法为数据挖掘算法。
[0012]进一步地,依据所述数据探查算法和所述数据探查任务确定数据探查计划包括:依据所述数据探查任务的任务信息确定所述数据探查任务的优先级;依据所述数据探查算法对所述数据探查任务进行任务拆分,得到多个子任务;确定所述多个子任务之间的依赖关系和所述数据探查任务与其它任务之间的依赖关系,得到任务依赖关系;依据所述数据探查任务的优先级、所述多个子任务和所述任务依赖关系确定所述数据探查计划。
[0013]进一步地,依据所述数据探查计划在大数据集群中进行数据探查,得到数据探查结果包括:确定所述大数据集群中的目标集群,其中,所述目标集群包括静态集群资源和动态集群资源,所述静态集群资源拥有预设数量的集群资源量,所述动态集群资源依据所述目标集群的负载情况和待执行的所述数据探查任务的数量调整所述目标集群所拥有的集群资源量;依据所述目标集群和所述数据探查计划对所述数据探查任务进行处理,得到所述数据探查结果。
[0014]进一步地,在依据所述目标集群和所述数据探查计划对所述数据探查任务进行处理之后,所述方法还包括:监测所述数据探查任务的执行状态,并在所述数据探查任务处于预设状态的情况下,向第一对象发送提醒信息,以提醒所述第一对象对所述数据探查任务进行处理,其中,所述第一对象是指运维人员。
[0015]进一步地,在依据所述数据探查计划在大数据集群中进行数据探查,得到数据探查结果之后,所述方法还包括:接收目标对象对所述数据探查结果的查询请求;依据所述目
标对象的身份信息和所述查询请求确定查询信息;依据所述查询信息在所述数据探查结果进行查询,得到查询结果,并将所述查询结果发送至所述目标对象。
[0016]进一步地,所述查询信息包括待查询信息、脱敏策略、可视化展示策略,依据所述查询信息在所述数据探查结果进行查询,得到查询结果包括:在所述数据探查结果中进行查询,得到所述待查询信息;依据所述脱敏策略对所述待查询信息进行脱敏,得到脱敏后的数据;依据所述可视化展示策略对所述脱敏后的数据进行计算和处理,得到所述查询结果。
[0017]为了实现上述目的,根据本申请的另一方面,提供了一种数据探查请求的处理装置,该装置包括:第一确定单元,用于在接收到数据探查请求的情况下,依据所述数据探查请求的请求来源确定数据探查任务,其中,所述数据探查任务用于探查业务数据中的异常数据或用于处理所述业务数据;第二确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据探查请求的处理方法,其特征在于,包括:在接收到数据探查请求的情况下,依据所述数据探查请求的请求来源确定数据探查任务,其中,所述数据探查任务用于探查业务数据中的异常数据或用于处理所述业务数据;依据所述数据探查任务和/或所述数据探查请求确定数据探查算法;依据所述数据探查算法和所述数据探查任务确定数据探查计划;依据所述数据探查计划在大数据集群中进行数据探查,得到数据探查结果。2.根据权利要求1所述的方法,其特征在于,依据所述数据探查请求的请求来源确定数据探查任务包括:依据所述数据探查请求的请求来源确定数据探查范围;依据所述数据探查范围内的待探查数据,得到目标数据信息;依据所述目标数据信息生成所述数据探查任务。3.根据权利要求2所述的方法,其特征在于,所述目标数据信息至少包括以下信息:所述待探查数据的目标集群信息、所述待探查数据的目标数据库信息、所述待探查数据的目标数据表信息、所述数据探查任务的提交时间、所述数据探查任务的运行状态信息。4.根据权利要求3所述的方法,其特征在于,所述数据探查请求的请求来源至少包括以下之一:定时批量作业、异步准实时查询,依据所述数据探查请求的请求来源确定数据探查范围包括:在所述数据探查请求的请求来源为所述定时批量作业的情况下,所述数据探查范围至少包括以下之一:热点表、预设数据表,其中,所述热点表是指访问次数超过预设次数的表;在所述数据探查请求的请求来源为所述异步准实时查询的情况下,所述数据探查范围至少包括所述目标数据表,其中,所述目标数据表是所述数据探查请求指示查询的数据表。5.根据权利要求3所述的方法,其特征在于,依据所述数据探查任务和/或所述数据探查请求确定数据探查算法包括:依据所述目标数据库信息确定所述待探查数据所在的目标数据库;在所述目标数据库为结构化数据库的情况下,确定所述数据探查算法为自然语言处理算法;在所述目标数据库存储的数据是图片数据的情况下,确定所述数据探查算法为图像处理算法;在所述目标数据库存储的数据是与时序相关的数据的情况下,确定所述数据探查算法为时间序列算法。6.根据权利要求1所述的方法,其特征在于,依据所述数据探查任务和/或所述数据探查请求确定数据探查算法包括:依据所述数据探查请求确定所述数据探查任务的业务需求;在所述业务需求为统计数据和计算数据的情况下,确定所述数据探查算法为统计学算法;在所述业务需求为预测数据趋势或建立数据模型的情况下,确定所述数据探查算法为机器学习算法;在所述业务需求为挖掘数据关系的情况下,确定所述数据探查算法为数据挖掘算法。7.根据权利要求1所述的方法,其特征在于,依据所述数据探查算法和所述数据探查任
务确定数据探查计划包括:依据所述数据探查任务的任务信息确定所述数据探查任务的优先级;依据所述数据探查算法对所述数据探查任务进行任务拆分,得到多个子任务;确定所述多个子任务之...

【专利技术属性】
技术研发人员:雷经纬徐嘉禛于子烨罗响
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1