一种分布式数据采集入库用的多级校验系统及校验方法技术方案

技术编号:38735746 阅读:10 留言:0更新日期:2023-09-08 23:22
本发明专利技术属于数据校验技术领域,具体涉及一种分布式数据采集入库用的多级校验系统及校验方法。该发明专利技术利用对数输入数据的多级校验,能够快速、灵活的清洗及规整数据,并且校验过程中会遵循各个校验条件的优先级进行逐级校验,保证数据有效性的同时,还不会造成校验误差,进而便能够有效的减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度。程度。程度。

【技术实现步骤摘要】
一种分布式数据采集入库用的多级校验系统及校验方法


[0001]本专利技术属于数据校验
,具体涉及一种分布式数据采集入库用的多级校验系统及校验方法。

技术介绍

[0002]随着信息化时代的到来,越来越多的线上数据需要整合并传输,但是由于现在社会信息爆炸,数据来源多,数据重复性高,尤其是当有多数据来源时,需要短时间处理数据的统一性,还要满足处理数据的高效性,就变得尤为重要,同时重复性的数据会占用较多的存储空间,不仅会拖慢数据传输的速度,还会影响数据的调阅。
[0003]现有的框架结构已经不能满足这样的需求,无法快速、灵活的清洗及规整数据,进而就会导致冗余数据越来越多,数据的及时性也得不都保障,进而便会堆积大量的失效数据,为解决这一问题,本方案提供了一种利用三级校验,减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度的多级校验系统。

技术实现思路

[0004]本专利技术的目的是提供一种分布式数据采集入库用的多级校验系统及校验方法,能够利用三级校验,减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度。
[0005]本专利技术采取的技术方案具体如下:一种分布式数据采集入库用的多级校验方法,包括:获取输入数据,并对其进行拆解处理,得到多个消息体;在所述消息体中加入至标识信息,得到待校验数据,其中,所述标识信息包括日期、来源、目的地、大小、区段、名称、行ID以及文件名;将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验;若是,则将所述待校验数据通过数据库操作引擎上传至在线数据库;若否,则对所述待校验数据进行分词处理,得到待优化数据,并同步将所述待优化数据上传至离线数据库;将所述待优化数据输入至数据转换模型中,得到唯一性数据,再将所述唯一性数据进行集群计算,并将其计算结果进行聚类合并,且将合并结果上传至在线数据库。
[0006]在一种优选方案中,所述输入数据的拆解方式为按行拆解。
[0007]在一种优选方案中,所述将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验的步骤,包括:获取待校验数据;从所述校验模型中调用校验条件,其中,所述校验条件包括内容重复校验、内容缺失校验以及内容疑问校验;将所述待校验数据依次输入至校验条件中,并将符合校验条件的确定为通过校
验,再同步上传至在线数据库,将不符合校验条件的确定为未通过校验,且同步上传至离线数据库。
[0008]在一种优选方案中,所述内容重复校验的优先级高于内容缺失校验的优先级,所述内容缺失校验的优先级高于内容疑问校验的优先级;其中,所述待校验数据根据内容重复校验、内容缺失校验以及内容疑问校验的优先级逐级执行校验,且所述待校验通过优先级高的校验条件时,不再执行优先级低的校验条件。
[0009]在一种优选方案中,所述内容重复校验执行时的步骤,包括:获取待校验数据,并上传至在线数据库,判断所述在线数据库中是否存在与待校验数据一致的重复数据;若存在,则保留待校验数据,并将重复数据从在线数据库中筛除;若不存在,则获取待校验数据的结构信息,并将其标定为一级校验数据,并判断所述一级校验数据中是否存在新增字段;若所述一级校验数据中存在新增字段,则根据结构变化时间查询其全量数据报送时间,并判断是否存在重复报送记录;若是,则清理该时间节点之前的重复数据,并保留一级校验数据,且汇总为一级数据集合,反之则直接将其汇总至一级数据集合;若所述一级校验数据中未存在新增字段,则获取所述一级校验数据的日期信息,并基于一级数据集合设置日期核准字段,并判断所述一级校验信息中是否仅存在核准字段与日期信息不一致;若是,则判定所述待校验数据通过内容重复校验,并将其汇总至一级数据集合;若否,则判定所述待校验数据未通过内容重复校验,并将其标定为二级校验数据,且汇总为二级数据集合。
[0010]在一种优选方案中,所述内容缺失校验执行时的步骤,包括:从所述二级数据集合中获取二级校验数据及其对应的缺失字段;从所述在线数据库中获取与二级校验数据对应的关键字段和标识字段,再将其与所述二级校验数据进行比较;若所述二级校验数据中的缺失字段为关键字段,则判定其未通过内容缺失校验,并将其标定为三级校验数据,并汇总为三级数据集合;若所述二级校验数据中的缺失字段为标识字段或非关键字段,则判定其通过内容缺失校验,并向二级校验数据中补充标识信息和非关键字段信息。
[0011]在一种优选方案中,所述内容疑问校验执行时的步骤,包括:从所述三级数据集合中获取三级校验数据;统计所述三级校验数据中关键字段的缺失数量,且将其标定为待比对参数;获取评估阈值,并与所述待比对参数进行比较;若所述待比对参数大于或等于评估阈值,则表明所述三级校验数据未通过内容疑问校验,且将其上传至离线数据库;若所述待比对参数小于评估阈值,则表明所述三级校验数据通过内容疑问校验,并向所述三级校验数据中补充关键字段。
[0012]在一种优选方案中,所述将所述待优化数据输入至数据转换模型中,得到唯一性数据的步骤,包括:从所述离线数据库中获取待优化数据;从所述数据转换模型中调用转换算法,并将所述待优化数据输入至转换算法中,再将其转换结果标定为唯一性数据;其中,所述转换算法为哈希算法。
[0013]本专利技术还提供了,一种分布式数据采集入库用的多级校验系统,应用于上述的分布式数据采集入库用的多级校验方法,包括:获取模块,所述获取模块用于获取输入数据,并对其进行拆解处理,得到多个消息体;标识模块,所述标识模块用于在所述消息体中加入至标识信息,得到待校验数据,其中,所述标识信息包括日期、来源、目的地、大小、区段、名称、行ID以及文件名;校验模块,所述校验模块用于将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验;若是,则将所述待校验数据通过数据库操作引擎上传至在线数据库;若否,则对所述待校验数据进行分词处理,得到待优化数据,并同步将所述待优化数据上传至离线数据库;数据转换模块,所述数据转换模块用于将所述待优化数据输入至数据转换模型中,得到唯一性数据,再将所述唯一性数据进行集群计算,并将其计算结果进行聚类合并,且将合并结果上传至在线数据库。
[0014]以及,一种分布式数据采集入库用的多级校验终端,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的分布式数据采集入库用的多级校验方法。
[0015]本专利技术取得的技术效果为:本专利技术利用对数输入数据的多级校验,能够快速、灵活的清洗及规整数据,并且校验过程中会遵循各个校验条件的优先级进行逐级校验,保证数据有效性的同时,还不会造成校验误差,进而便能够有效的减少后续数据处理的难度,另外加上灵活的配置信息,解决框架的适用程度。
附图说明
[0016]图1是本专利技术所提供的方法流程图;图2是本专利技术所提供的系统模块图。
具体实施方式
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式数据采集入库用的多级校验方法,其特征在于:包括:获取输入数据,并对其进行拆解处理,得到多个消息体;在所述消息体中加入至标识信息,得到待校验数据,其中,所述标识信息包括日期、来源、目的地、大小、区段、名称、行ID以及文件名;将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验;若是,则将所述待校验数据通过数据库操作引擎上传至在线数据库;若否,则对所述待校验数据进行分词处理,得到待优化数据,并同步将所述待优化数据上传至离线数据库;将所述待优化数据输入至数据转换模型中,得到唯一性数据,再将所述唯一性数据进行集群计算,并将其计算结果进行聚类合并,且将合并结果上传至在线数据库。2.根据权利要求1所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述输入数据的拆解方式为按行拆解。3.根据权利要求1所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述将所述待校验数据输入至多级校验模型中,判断所述待校验数据是否通过校验的步骤,包括:获取待校验数据;从所述校验模型中调用校验条件,其中,所述校验条件包括内容重复校验、内容缺失校验以及内容疑问校验;将所述待校验数据依次输入至校验条件中,并将符合校验条件的确定为通过校验,再同步上传至在线数据库,将不符合校验条件的确定为未通过校验,且同步上传至离线数据库。4.根据权利要求3所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述内容重复校验的优先级高于内容缺失校验的优先级,所述内容缺失校验的优先级高于内容疑问校验的优先级;其中,所述待校验数据根据内容重复校验、内容缺失校验以及内容疑问校验的优先级逐级执行校验,且所述待校验通过优先级高的校验条件时,不再执行优先级低的校验条件。5.根据权利要求3所述的一种分布式数据采集入库用的多级校验方法,其特征在于:所述内容重复校验执行时的步骤,包括:获取待校验数据,并上传至在线数据库,判断所述在线数据库中是否存在与待校验数据一致的重复数据;若存在,则保留待校验数据,并将重复数据从在线数据库中筛除;若不存在,则获取待校验数据的结构信息,并将其标定为一级校验数据,并判断所述一级校验数据中是否存在新增字段;若所述一级校验数据中存在新增字段,则根据结构变化时间查询其全量数据报送时间,并判断是否存在重复报送记录;若是,则清理该时间节点之前的重复数据,并保留一级校验数据,且汇总为一级数据集合,反之则直接将其汇总至一级数据集合;若所述一级校验数据中未存在新增字段,则获取所述一级校验数据的日期信息,并基于一级数据集合设置日期核准字段,并判断所述一级校验信息中是否仅存在核准字段与日
期信息不一致;若是,则判定所述待校验数据通过内容重复校验,并将其汇总至一级数据集合;若否,则判定所述待校验数据未通过内容重复校验,并将其标定为二级校验数据,且汇总为二级数据集合。6.根据权...

【专利技术属性】
技术研发人员:姚含方红渊崔冬祥李鸿羽黄少意王惠云
申请(专利权)人:南京莫愁智慧信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1