System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据清洗方法、装置、设备及其存储介质制造方法及图纸_技高网

一种数据清洗方法、装置、设备及其存储介质制造方法及图纸

技术编号:40977352 阅读:4 留言:0更新日期:2024-04-18 21:24
本申请实施例属于金融科技技术领域,应用于金融业务数据清洗场景中,涉及一种数据清洗方法、装置、设备及其存储介质,包括采集批量业务数据;识别出所述批量业务数据中的噪声数据、敏感数据、低频调用数据和过期数据;通过预构建的综合清洗模型、噪声数据标识、敏感数据标识、低频调用数据标识、过期数据标识,完成对批量业务数据的清洗。在金融业务数据传输过程中,或者从批量业务数据中筛选出目标金融业务数据进行系统转存过程中,通过对批量业务数据进行噪声数据删除处理、敏感数据加密处理、过期数据删除处理和低频调用数据删除处理,保证了及时删除掉非本业务场景的数据,同时,也实现了目标业务数据的安全传输。

【技术实现步骤摘要】

本申请涉及金融科技,应用于金融业务数据清洗场景中,尤其涉及一种数据清洗方法、装置、设备及其存储介质


技术介绍

1、随着互联网的飞速发展,各行各业都在依托互联网寻求行业突破点,近年来,金融行业也正在围绕着互联网进行线上业务拓展。由于金融行业涉及的数据往往涉及到个人隐私数据和资金财产数据,这也导致了对金融机构在业务数据的管理维护上提出了更高的安全要求。

2、在批量金融业务数据采集过程中,往往会有业务数据伴随着诸多噪声,不符合期望的业务场景使用,这些噪声会影响金融业务模型的训练结果,因此,在使用前需要进行数据清洗,但现有的数据清洗方法,对于清洗策略不全面,导致数据清洗处理不够彻底,无法及时清洗掉非本业务场景的数据,同时,也无法对目标业务数据进行安全传输。


技术实现思路

1、本申请实施例的目的在于提出一种数据清洗方法、装置、设备及其存储介质,以解决现有技术在金融业务数据清洗上,无法及时清洗掉非本业务场景的数据,同时,也无法对目标业务数据进行安全传输的问题。

2、为了解决上述技术问题,本申请实施例提供数据清洗方法,采用了如下所述的技术方案:

3、一种数据清洗方法,包括下述步骤:

4、基于预设的数据采集组件从目标数据库中采集批量业务数据,其中,在对所述批量业务数据进行采集时,一并采集所述批量业务数据中所有业务数据分别存入到所述目标业务库的入库时间节点;

5、根据预设的噪声数据识别策略识别出所述批量业务数据中的噪声数据,并为所有噪声数据一一设置噪声数据标识;

6、根据预设的敏感数据识别策略识别出所述批量业务数据中的敏感数据,并为所有敏感数据一一设置敏感数据标识;

7、采用统计分析法和预设的数据调用日志识别所述批量业务数据中所有业务数据的调用频率;

8、根据预设的对比策略识别出所述批量业务数据中的低频调用数据,并为所有低频调用数据一一设置低频调用数据标识;

9、基于预设的过期数据识别策略和所述入库时间节点识别出所述批量业务数据中的过期数据,并为所有过期数据一一设置过期数据标识;

10、通过预构建的综合清洗模型、所述噪声数据标识、所述敏感数据标识、所述低频调用数据标识、所述过期数据标识清洗所述批量业务数据中的噪声数据、敏感数据、低频调用数据和过期数据,完成对所述批量业务数据的清洗。

11、进一步的,所述根据预设的噪声数据识别策略识别出所述批量业务数据中的噪声数据,并为所有噪声数据一一设置噪声数据标识的步骤,具体包括:

12、根据预设的业务场景和筛选规则,从所述批量业务数据中筛选出所述业务场景所需的业务数据,作为一阶业务数据;

13、获取所述批量业务数据被筛选之后所剩下的业务数据,将所述剩下的业务数据作为所述噪声数据,并为所述剩下的业务数据一一设置噪声数据标识。

14、进一步的,所述根据预设的敏感数据识别策略识别出所述批量业务数据中的敏感数据,并为所有敏感数据一一设置敏感数据标识的步骤,具体包括:

15、采用循环方式依次从所有一阶业务数据中选择不同的一阶业务数据作为当前一阶业务数据;

16、根据预设的敏感字段匹配表识别当前一阶业务数据所属的数据字段是否为所述敏感字段匹配表中的敏感字段;

17、若当前一阶业务数据所属的数据字段不是所述敏感字段匹配表中的敏感字段,则筛选出所述当前一阶业务数据,加入到预设的二阶业务数据集中;

18、若当前一阶业务数据所属的数据字段为所述敏感字段匹配表中的敏感字段,则筛选出所述当前一阶业务数据,加入到预设的敏感数据集中;

19、直到循环次数达到所述所有一阶业务数据的数据条数,停止循环,并为所述敏感数据集中所有业务数据设置敏感数据标识。

20、进一步的,所述采用统计分析法和预设的数据调用日志识别所述批量业务数据中所有业务数据的调用频率的步骤,具体包括:

21、根据所述数据调用日志,统计所有一阶业务数据分别从所述目标数据库中被调用总次数;

22、所述根据预设的对比策略识别出所述批量业务数据中的低频调用数据,并为所有低频调用数据一一设置低频调用数据标识的步骤,具体包括:

23、将所有一阶业务数据分别对应的被调用总次数逐个与预设的次数阈值进行对比,筛选出被调用次数未超过所述次数阈值的一阶业务数据,加入到预设的低频调用数据集中,并为所述低频调用数据集中所有业务数据设置低频调用数据标识;

24、在执行所述根据预设的对比策略识别出所述批量业务数据中的低频调用数据,并为所有低频调用数据一一设置低频调用数据标识的步骤之后,所述方法还包括:

25、筛选出被调用次数超过所述次数阈值的一阶业务数据,加入到预设的高频调用数据集中。

26、进一步的,所述基于预设的过期数据识别策略和所述入库时间节点识别出所述批量业务数据中的过期数据,并为所有过期数据一一设置过期数据标识的步骤,具体包括:

27、获取所有目标业务数据分别对应的入库时间节点,其中,所述所有目标业务数据包括所述批量业务数据中所有业务数据、所述所有一阶业务数据、所述二阶业务数据集中所有业务数据或者所述高频调用数据集中所有业务数据;

28、通过预设的时间间隔函数,计算所有入库时间节点分别与当前时间节点的时间差值,其中,所述时间间隔函数的计算参数包括入库时间节点和当前时间节点;

29、将所有时间差值分别与预设的时间期限进行对比,通过对比识别出所有超过所述时间期限的时间差值;

30、根据所有超过所述时间期限的时间差值,识别出所述所有目标业务数据中的过期数据,并为所述过期数据一一设置过期数据标识。

31、进一步的,所述综合清洗模型包括清洗顺序控制组件、噪声数据清洗组件、敏感数据清洗组件、低频调用数据清洗组件、过期数据清洗组件和清洗结果反馈组件,在执行所述通过预构建的综合清洗模型、所述噪声数据标识、所述敏感数据标识、所述低频调用数据标识、所述过期数据标识清洗所述批量业务数据中的噪声数据、敏感数据、低频调用数据和过期数据,完成对所述批量业务数据的清洗的步骤之前,所述方法还包括:

32、基于所述清洗顺序控制组件和预设的清洗优先级,设置所述噪声数据清洗组件、敏感数据清洗组件、低频调用数据清洗组件、过期数据清洗组件的清洗先后顺序,其中,所述清洗先后顺序满足噪声数据清洗组件优先于敏感数据清洗组件,敏感数据清洗组件优先于低频调用数据清洗组件;

33、建立所述噪声数据清洗组件、敏感数据清洗组件、低频调用数据清洗组件、过期数据清洗组件分别与所述清洗结果反馈组件的数据传输关系;

34、所述通过预构建的综合清洗模型、所述噪声数据标识、所述敏感数据标识、所述低频调用数据标识、所述过期数据标识清洗所述批量业务数据中的噪声数据、敏感数据、低频调用数据和过期数据,完成对所述批量业务数据的清洗的步骤,具体包括:本文档来自技高网...

【技术保护点】

1.一种数据清洗方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的数据清洗方法,其特征在于,所述根据预设的噪声数据识别策略识别出所述批量业务数据中的噪声数据,并为所有噪声数据一一设置噪声数据标识的步骤,具体包括:

3.根据权利要求2所述的数据清洗方法,其特征在于,所述根据预设的敏感数据识别策略识别出所述批量业务数据中的敏感数据,并为所有敏感数据一一设置敏感数据标识的步骤,具体包括:

4.根据权利要求3所述的数据清洗方法,其特征在于,所述采用统计分析法和预设的数据调用日志识别所述批量业务数据中所有业务数据的调用频率的步骤,具体包括:

5.根据权利要求4所述的数据清洗方法,其特征在于,所述基于预设的过期数据识别策略和所述入库时间节点识别出所述批量业务数据中的过期数据,并为所有过期数据一一设置过期数据标识的步骤,具体包括:

6.根据权利要求1或5所述的数据清洗方法,其特征在于,所述综合清洗模型包括清洗顺序控制组件、噪声数据清洗组件、敏感数据清洗组件、低频调用数据清洗组件、过期数据清洗组件和清洗结果反馈组件,在执行所述通过预构建的综合清洗模型、所述噪声数据标识、所述敏感数据标识、所述低频调用数据标识、所述过期数据标识清洗所述批量业务数据中的噪声数据、敏感数据、低频调用数据和过期数据,完成对所述批量业务数据的清洗的步骤之前,所述方法还包括:

7.根据权利要求6所述的数据清洗方法,其特征在于,所述根据所述清洗先后顺序对所述已设置过标识的批量业务数据进行数据清洗,获得清洗后的批量业务数据的步骤,具体包括:

8.一种数据清洗装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据清洗方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据清洗方法的步骤。

...

【技术特征摘要】

1.一种数据清洗方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的数据清洗方法,其特征在于,所述根据预设的噪声数据识别策略识别出所述批量业务数据中的噪声数据,并为所有噪声数据一一设置噪声数据标识的步骤,具体包括:

3.根据权利要求2所述的数据清洗方法,其特征在于,所述根据预设的敏感数据识别策略识别出所述批量业务数据中的敏感数据,并为所有敏感数据一一设置敏感数据标识的步骤,具体包括:

4.根据权利要求3所述的数据清洗方法,其特征在于,所述采用统计分析法和预设的数据调用日志识别所述批量业务数据中所有业务数据的调用频率的步骤,具体包括:

5.根据权利要求4所述的数据清洗方法,其特征在于,所述基于预设的过期数据识别策略和所述入库时间节点识别出所述批量业务数据中的过期数据,并为所有过期数据一一设置过期数据标识的步骤,具体包括:

6.根据权利要求1或5所述的数据清洗方法,其特征在于,所述综合清洗模型包括清洗顺序控制组件、噪声数据清洗组件、敏感数...

【专利技术属性】
技术研发人员:余可帆
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1