一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质技术方案

技术编号:35282243 阅读:17 留言:0更新日期:2022-10-22 12:25
本发明专利技术涉及数据清洗领域,具体涉及一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质;所述方法根据数据库连接和表名开始生成清洗方案;通过数据库元数据自动配对需要清洗的字段和表名,对成功配对的清洗字段,选择预置的清洗规则;利用数据分布情况生成错误的容忍度及适宜的工作流程;提供图形用户界面以显示处理和管理清洗差异过程。本发明专利技术实施例能够灵活的配置数据管理的工作流程,有丰富的数据处理与计算规则;流程执行状态可以直观全面展现给用户的能力,并支持可视化的数据异常的发现、定位及处理能力;另外还可以保留已处理数据差异的历史版本和快照;支持将来可能产生的数据变化以及个性化数据需求。需求。需求。

【技术实现步骤摘要】
一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质


[0001]本专利技术涉及数据清洗领域,具体涉及一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质。

技术介绍

[0002]现有技术中,一般通过公共数据管理系统作为公司投资数据流转的入口,用于对证券、行情、公司行为等市场公开数据进行双源清洗,形成主数据,然后推送到交易、核算、估值、风控等各个业务系统。随着投资机构内部管理趋向精细化,外部监管趋向信息化,可投资品种趋向复杂化,对手机构趋向多样化,数量化应用趋向广泛化,为应对各种变化,管理模式在不断改进与完善,信息技术架构的复杂性日益增强,对投资各环节数据和企业全景数据的一致性、完整性、准确性、及时性、可用性提出了更高的要求。
[0003]面对日益激增的金融市场数据和市场行为,产生了大量数据必须进行数据运营和数据工程实现才能使用,针对需要频繁的集中处理的海量历史数据,现有技术中的清洗方法通常指定多个数据源作为候选数据源,根据不同下游系统的不同需求,批量的产生比对价格,发送给如前台交易系统的接收系统。即目前的数据清洗及管理方法包括:开发人员采用界面组件的方式,构造数据的清洗规则,设计执行流程;基于流程,对数据进行自动化验证;业务人员对数据进行评估和追踪,核对后形成主数据;主数据发布;而该方法虽然针对需要在指定时间节点集中处理的海量历史数据提供了比较好的支持,但是在如下方面存在局限性:一是整个开发过程以图形化界面配置实现,规则和流程的复用性差,当新增某一投资品种数据时,仍需要熟练开发人员一周以上时间完成,难以满足公司快速变化的数据需求。二是缺少开箱即用的规则工具。三是数据的访问权限管理功能较弱,不利于数据复核和抽查。四是数据历史不易查询和分析。五是不支持实时处理,主数据也不能向接收系统推送。

技术实现思路

[0004]鉴于现有技术中存在的技术缺陷和技术弊端,本专利技术实施例提供克服上述问题或者至少部分地解决上述问题的一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质。
[0005]作为本专利技术实施例的一个方面,提供了一种清洗公共数据的创建方法,所述公共数据清洗方法包括,
[0006]读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;
[0007]获取数据库中的元数据,将所述元数据与所述清洗字段和/或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
[0008]计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗
规则的排列。
[0009]进一步地,所述创建方法包括:
[0010]提供人工纠正及确认清洗规则的窗口。
[0011]作为本专利技术实施例的又一方面,提供了一种公共数据的清洗方法,所述清洗方法包括:
[0012]获取预清洗数据;
[0013]通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
[0014]创建显示生成差异数据及验证差异数据的图形用户界面;
[0015]采集用户操作,生成审计记录。
[0016]进一步地,所述“获取预清洗数据”步骤包括:
[0017]读取实时数据库连接,通过第三方数据库获取预清洗数据;或者
[0018]根据制定的日历表批量获取预清洗数据。
[0019]进一步地,所述公共数据清洗方法包括:
[0020]分别设置用户操作或复核的角色权限;
[0021]划分清洗子任务,根据角色权限分配清洗子任务。
[0022]进一步地,所述公共数据清洗方法包括:
[0023]支持按字段或行在图形用户界面上处理差异数据;
[0024]保存处理差异数据的历史版本和/或快照;
[0025]综合历史差异数据和/或数据分析,推荐差异数据的容错阈值及清洗规则的排列。
[0026]作为本专利技术实施例的再一方面,提供了一种清洗公共数据的创建系统,所述创建系统包括:
[0027]生成模块,用于读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;
[0028]匹配模块,用于获取数据库中的元数据,将所述元数据与所述清洗字段和/ 或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
[0029]确定模块,用于计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗规则的排列。
[0030]作为本专利技术实施例的再一方面,提供了一种公共数据清洗系统,所述清洗系统包括:
[0031]数据获取模块,用于获取预清洗数据;
[0032]差异生成模块,用于通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
[0033]创建提供模块,用于创建显示生成差异数据及验证差异数据的图形用户界面;
[0034]处理记录模块,用于采集用户操作,生成审计记录。
[0035]作为本专利技术实施例的另一方面,提供了一种电子设备,其特征在于,所述电子设备包括:存储器、处理器,通信总线以及存储在所述存储器上的一种清洗公共数据的创建程序和/或公共数据清洗程序,
[0036]所述通信总线用于实现处理器与存储器间的通信连接;
[0037]所述处理器用于执行所述一种清洗公共数据的创建程序和/或一种公共数据清洗程序,以实现上述实施例中所述的一种清洗公共数据的创建方法的步骤和/或实现上述实施例中所述的一种公共数据清洗方法的步骤。
[0038]作为本专利技术实施例的另一方面,提供了一种存储介质,所述存储介质上存储有一种公共数据清洗程序,所述一种公共数据清洗程序被处理器执行时实现如上述一种公共数据清洗方法的步骤。
[0039]本专利技术实施例至少实现了如下技术效果:
[0040]本专利技术实施例根据数据库连接和表名开始生成清洗方案;通过表和字段的数据库元数据/数据分布情况,自动配对需要清洗的字段和表名,对成功配对的清洗字段,选择预置的清洗规则;利用数据分布情况生成错误的容忍度及适宜的工作流程;提供图形用户界面以显示处理和管理清洗差异过程。本专利技术实施例能够灵活的配置数据管理的工作流程,有丰富的数据处理与计算规则;流程执行状态可以直观全面展现给用户的能力,并支持可视化的数据异常的发现、定位及处理能力;另外还可以保留已处理数据差异的历史版本和快照;支持将来可能产生的数据变化以及个性化数据需求。
[0041]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所记载的结构来实现和获得。
[0042]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0043]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种清洗公共数据的创建方法,其特征在于,所述公共数据清洗方法包括,读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;获取数据库中的元数据,将所述元数据与所述清洗字段和/或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗规则的排列。2.如权利要求1所述的公共数据清洗方法,其特征在于,所述创建方法包括:提供人工纠正及确认清洗规则的窗口。3.一种公共数据的清洗方法,其特征在于,所述清洗方法包括:获取预清洗数据;通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;创建显示生成差异数据及验证差异数据的图形用户界面;采集用户操作,生成审计记录。4.如权利要求3所述的公共数据清洗方法,其特征在于,所述“获取预清洗数据”步骤包括:读取实时数据库连接,通过第三方数据库获取预清洗数据;或者根据制定的日历表批量获取预清洗数据。5.如权利要求3所述的公共数据清洗方法,其特征在于,所述公共数据清洗方法包括:分别设置用户操作或复核的角色权限;划分清洗子任务,根据角色权限分配清洗子任务。6.如权利要求3所述的公共数据清洗方法,其特征在于,所述公共数据清洗方法包括:支持按字段或行在图形用户界面上处理差异数据;保存处理差异数据的历史版本和/或快照;综合历史差异数据和/或数据分析,推荐差异数据的容错阈值及清洗规则的排列。7.一种清洗公共...

【专利技术属性】
技术研发人员:刘易斯
申请(专利权)人:中国人寿资产管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1